什么是元数据
用最通俗、最简短的语言讲,元数据就是“描述数据的数据”。美国信息标准组织(NISO)认为,“元数据是对信息资源进行描述、解释、定位并使其更方便检索、使用或管理的结构化数据”。GartnerGroup认为,“元数据是为了提升企业信息资产的可用性,而对信息资产各个方面特征加以描述的信息”。
广义上,元数据指与业务和技术过程及企业使用数据有关的所有物理数据以及包含知识的信息。包括来自企业内外所有(软件和其他介质中含有的)物理数据和(员工和各种媒介中所含有的)知识,包括物理数据的格式、技术和业务过程、数据的规则和约束以及企业所有使用的数据结构。
元数据在数据治理、内容管理、地理空间、图文管理等领域都是重要的基础设施。我们熟知的JPG图像格式、MPEG7媒体格式中都包含了元数据的元模型标准定义。图像元数据内置与图像文件中。我们可以通过图像工具查看、提取或者修改图像的元数据,如图像的拍摄设备型号、光圈、快门、ISO等参数。
元数据分为哪几种类型
元数据描述内容的属性可以分为:技术属性、业务属性和管理属性。以此为基础,业界通常把元数据划分为:技术元数据、业务元数据和管理元数据。技术元数据主要包括对数据结构、数据处理方面的特征描述,覆盖系统数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;业务元数据主要描述业务术语、信息分类、指标定义和业务规则等信息;管理元数据管理元数据主要描述人员角色、岗位职责和管理流程等信息。
在数据仓库环境中,元数据的管理内容如下图所示:
图1数据仓库环境下的元数据管理内容
元数据有哪些应用
通过元数据的影响分析,在进行系统升级改造时,能够提前评估所需要的工作量;血缘分析可以定位数据流转过程,呈现问题出现的所在位置;存储过程展现可以钻取字段级别的对象关联关系,展现数据加工逻辑。
血缘分析:通过对数据加工过程的展现,查看系统内或者跨系统间的对象的上游数据链路,分析该对象的逻辑加工过程。如下图所示:
图2血缘分析
影响分析:展现一个数据对象与下游数据的关系,以评估该数据对象对于系统全局的影响。如下图所示:
图3影响分析
存储过程展现:展现字段级别的存储过程。如下图所示:
图4存储过程展现
元数据对实际工作的帮助
随着系统的不断建设和大范围数据集成的需要,使用者对数据质量和数据应用提出了更高的要求。有效地元数据管理,可以帮助业务人员、技术人员统一数据认识,消除理解歧义,帮助各环节使用者呈现系统的数据加工过程。
业务人员:元数据提供对整个数据环境的直观描述,使整个数据环境可透视,可钻取。
数据分析师:可以通过元数据了解整个的数据流转过程,数据来源于哪些业务系统,各个业务系统的数据接口访问情况,中间做了哪些数据加工,最后形成了哪些报表和数据分析结果。
系统维护人员:元数据的调度信息,可以使运维人员方便地了解和管理整个系统的运转情况,快速定位出错位置,从而进行有效的维护。
开发人员:元数据可以快速查询业务模型设计、物理模型设计、ETL转换规则描述等,以及各个对象间的关联关系,便于开发人员进行后续的系统升级改造。
北京最好治疗白癜风哈尔滨治疗白癜风医院