元数据管理是我最爱谈及的话题之一,因为本人商业智能相关的绝世武功一直都没学好,而绝世武功的目录一直都背的不错。而元数据,真的很像绝世武功的目录。
不知道谁定义的元数据,和数据仓库商业智能等等长篇大论的定义迥然不同,它简直简短得不能再简短:Thedataaboutdata。好吧,我第一次看见这定义时,真心还是不懂,谓之玄而又玄。待经过一些学习探索之后发现这定义还是很棒的,更准确的或许应该是Theinformationabutdata。
看上面的经典DIKW金字塔,Metadata发生于Data和Information之间,它是用于描述Data的东西,Metadata+Data就构成了Information。还是不懂是不是?
给个例子:Rainbow/07/06
如上两个,均是Data,单纯看他们,我们是无法猜出它们的含义的,但如果:
而这里,“名字”和“生日”分别是用来描述Rainbow和/07/06,它们使Rainbow和/07/06具有了含义,从中我们获得的信息“一个叫Rainbow的孩子,生日是年7月6日”。”名字“和”生日“就是元数据。
下面这张图很有趣,它以关系型数据库为例,解释了三个术语。
1.数据,在图中就是DataInstance,这里给出一个人的名字以及他的相关信息:Mr.JohnPublicJr.
.模型:在图中对应Model,给出了在数据库模型中,为了描述上面的人的数据,构造了怎样的元数据模型:有三个实体,分别是Person,Name和Address。这Model对应的内容,就是我们今天的课题:元数据
3.元模型:这个其实是我们今天要讲的重点,它是用来装模型的框架,因为是关系型数据库,因此元模型对应的内容就是DataModel(数据模型),LogicalEntity(逻辑实体)和Relationship(关系),其实还应该有Attribute(属性),Constraints(约束)等等关系型数据库中的概念。
而我们学习元数据,其实应该先去了解不同类型的元数据对应的元模型,而元模型作为元数据的框架再去填充元数据的内容。
接着说元数据,元数据按照功能主要分为三类:
1.BusinessMetadata
.TechnologyMetadata
3.OperationalMetadata
而对于BI系统而言,这三类元数据,横亘整个BI全部生命周期,且在DB,ETL,Report各个领域均扮演极其重要的角色。可以说元数据管理是数据质量,以及信息治理的基础。如下经典,请铭记于心:数据不会自己管理自己。而我们需要通过元数据去管理他们。
BusinessMetadata那么什么是BusinessMetadata?
广义来讲,所有用于描述业务各种逻辑的信息都可称为BusinessMetadata。这包括但不仅仅限于如下信息:
商业术语:BusinessGlossary,包括名词和详细定义
术语分类:Taxonomies,对于上述的商业术语的逻辑归类,可构成GlossaryTree
业务规则:BusinessRule
业务流程:BusinessProcess,包括Activity,Input,Output,Supplier,Consumer,等等
首先,商业术语(BusinessGlossary),提醒大家注意,这里的Metamodel,也就是装载商业术语元数据的框架。
接下来,术语分类
还有,业务规则
这些其实也是:
TechnologyMetadata接下来什么是TechnologyMetadata?
广义来讲,所有在计算机系统中的各类数据的描述均可称为TechnologyMetadata。以BI系统为例,这包括但不仅仅限于如下信息:
系统:System
接口:Interface
实体/表:Entity/Table
属性/字段:Attribute/Column
数据转换:DataTransforming
......
#TechnologyMetadata是我们讲解的重点
Technology各个工具以及平台的情况:
1.DataRepository
DataModeling:Table/Column等详细信息
可使用工具如ERWIN,PowerDesigner,InfosphereDataArchitect等等,几大主流数据建模工具之前的元数据可以项目export/import,会有少量问题但基本可以重用。
Oracle,DB,MSSQLServer等均有自己的数据字典,可以反向生成为数据模型文件。数据库的数据字典不会记录如前面描述的详细的元数据信息,因此需要Designer在做Model的时候整理元数据,或以北京最好治疗白癜风北京治疗最好白癜风十佳医院