结构化半结构化非结构化数据的区别有哪

我们每天都会和企业ERP、CRM、财务数据等数据库打交道,同时也会用到数据驾驶舱、各种报表等可视化成果。其实这些日常工作所接触到的数据库或者报表、文本、视频文档还有另一种术语表达:结构化、半结构化、非结构化数据。

当焦点转向分析或大数据时,结构化、半结构化和非结构化的术语可能会被大肆宣扬。如今这种数据类型已经广泛利用于各种复杂的业务应用场景中,了解了他们的区别,对于我们进行数据应用会有实际的好处。

结构化数据

结构化数据是指关系模型数据,即以关系数据库形式管理的数据。而相比于其他数据类型,最容易搜索和组织的数据是结构化数据,因为它通常包含在行和列中,并且其元素可以映射到固定的预定义字段中。

我们在实际场景中举例:结构化数据可以遵循数据库设计人员创建的数据模型-按地区、按产品或按客户考虑销售记录。在结构化数据中,实体可以组合在一起形成关系(“客户”也对服务感到满意)。这使得结构化数据易于存储、分析和搜索,直到最近,它还是唯一一个可以方便地用于企业的数据。如今,大多数结构化数据只占所有数据的不到20%。

结构化数据可以由机器和人类创建。结构化数据的示例包括财务数据,如会计交易、地址详细信息、人口统计信息、客户星级评定、机器日志、智能手机和智能设备的位置数据等。

非结构化数据

非结构化数据是没有固定模式的数据,如WORD、PDF、PPT、EXL,各种格式的图片、视频等。

在所有数据中,有很大一部分是是非结构化数据。非结构化数据是不能包含在行列数据库中且没有关联数据模型的数据。想想电子邮件的文本。结构的缺乏使得非结构化数据更难搜索、管理和分析,这也是为什么企业广泛丢弃非结构化数据的原因,直到最近人工智能和机器学习算法的普及使得处理变得更容易。

非结构化数据通常存储在数据池、SQL数据库、应用程序和数据仓库中,而不是电子表格或关系数据库。非结构化数据中丰富的信息现在可以访问,并且可以用人工智能算法自动处理。这项技术已将非结构化数据提升为组织极为宝贵的资源。

半结构化数据

除了结构化和非结构化数据之外,还有第三类数据,基本上是两者的混合。半结构化数据是非关系模型的、有基本固定结构模式的数据,具有一些定义性或一致性特征,但不符合关系数据库所期望的严格结构。因此,半结构化数据有一些组织属性,如语义标记或元数据,使其更易于组织,但数据仍有流动性。

电子邮件就是一个很好的例子。虽然实际内容是非结构化的,但它确实包含结构化数据,如发件人和收件人的姓名和电子邮件地址、发送时间等。另一个例子是数码照片。图片本身是非结构化的,但如果照片是在智能手机上拍摄的,例如,它会有日期和时间戳、地理标记,并会有一个设备ID。一旦存储,照片也可以被赋予标签,提供一个结构,如“狗”或“宠物”。

人们通常将其归类为非结构化数据的许多内容实际上是半结构化的,因为它包含一些分类特征。

结构化、非结构化和半结构化之间的区别

从专业角度讲,三种类型的数据可以下面四点的总结。

结构化、半结构化、非结构化其实是按照数据格式分类。

严格讲,结构化与半结构化数据都是有基本固定结构模式的数据

半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系,本质讲两者并无必然联系。

业界有将大数据认同为半结构/非结构化数据,是因为大数据技术最初是在半结构化数据领域发挥作用,其本质是将数据处理技术与数据格式混淆,是不正确的。

除了专业角度,我们从生活应用场景来解读三种数据类型的差别。

为了容易理解数据分类之间的差异,让我们用这个类比来说明。当面试一份工作时,假设面试有三种不同的分类:结构化、半结构化和非结构化。

在结构化面试中,面试官遵循一个由人力资源部定义的严格的脚本,每个应聘者都遵循这个脚本。另一种面试形式是非结构化面试。在非结构化面试中,完全由面试官来决定每个候选人的问题和提问顺序(甚至是提问的顺序)。半结构化面试包含结构化和非结构化面试分类的元素。它使用了结构化面试所允许的一致性和数量元素,但提供了根据更符合非结构化面试的情况进行定制的自由。

因此,对于数据来说,结构化数据易于组织,并且遵循严格的格式;非结构化数据是复杂的,而且通常是定性信息,不可能简化为关系数据库或在关系数据库中组织,而半结构化数据具有这两种元素。

您可以通过以下方式联系我们,获取关于数据安全的免费咨询及支持服务:

1)拨打电话-

2)







































白癜风什么原因引起的
为白癜风患者健康保驾护航



转载请注明:http://www.92nongye.com/tlfc/tlfc/204621799.html