数据目录是整个数据资产体系中的首要工作,是构建企业数据架构体系的基础工作。可形成企业统一的数据资产目录,并为各业务域提供数据资产全景图。
通过建设数据目录,对元数据进行管理和应用,可以支持组织未来的取数用数、与数据标准对标、数据质量追溯等多种需求。
本文重点介绍四类数据目录概念和内容、以及与三清单的关系,同时介绍了数据目录搭建的方法和流程及整理三清方法及策略
规划做了很多,资产盘点了不少,制度与办法下发了不少,但是在落地过程中依然困难重重,难见效果。
1、数据资产实际情况:
1) 数据资产盘点消耗大,时间长,无路径
2) 盘点成果于业务脱节,应用效果差
3) 无从掌握核心资产
2、数据架构
1) 控制了数据流向图,但不能动态掌握不清楚数据分布、流向的变化情况
2) 不清楚实际运行的数据模型与业务模型,企业架构匹配程度
3、元数据面临七大挑战和三大管理难点
元数据的七大挑战
1) 组织有许多数据源,但数据使用者没有简单的方法在一个地方准确识别这些数据源。
2) "全业务统一"数据中心已经变成了一片数据沼泽,很难找到有意义的,可信赖的数据。
3) 数据使用者没有适当的流程来请求他们需要的数据。
4) 即使数据使用者可以访问数据,他们也不知道数据意味着什么或者应该如何使用数据。
5) 数据使用者不知道他们找到的数据的来源,因此无法确认数据的可信度。
6) 数据消费者不知道谁拥有数据,因此无法联系相应的负责人。
7) 数据消费者不知道企业中已经存在哪些数据集,也不知道谁使用了类似的数据探索过类似的问题。
对于上述问题的解决,数据治理专家可能会想到元数据。元数据真的能够完全解决这些问题吗?答案是不能。
元数据三大管理难点
1) 数据增长的速度超过了数据管理人数,企业用户现在面临着更多更大的数据来源,因此存在元数据管理人员可用性的瓶颈,
2) 定义不正确、信息不完整、元数据陈旧或无法找到所需信息,它需要更多的元数据来理解存储在数据仓库中的数据资产,
3) 技术人员和业务人员的思维和“语言”存在差异,这使得业务用户获取数据变得更加复杂和困难。
4、数据质量
1) 数据质量问题长期存在,未找到切入点
5、数据运营
1) 需要建立数据资产的管理制度与机制体系
2) 有数据资产目录的基础,但数据资产如何发挥更大的价值,并进行合理运营?
2、数据目录定义、作用及应用场景
(1)数据目录
数据目录是以核心元数据为主要描述方式,按照资源分类索引和目录条目格式要求,对数据库中不同类型、不同层次的数据按照一定的分类体系进行编目,用以描述数据的特征,实现数据检索、定位与获取功能的目录。
数据目录概念的前身是数据字典和元数据存储库。数据字典通常用来收集、存储和管理数据元素、数据格式、数据类型、数据长度以及与其他数据的关系等信息。元数据存储库则拓展了数据字典的概念,不仅包含数据格式类型信息,而是包括业务元数据、技术元数据、管理元数据等多种元数据描述。
数据目录可以分为数据资源目录、数据共享和开放目录、数据资产目录和数据服务目录
四种数据目录之间关系图
通过全面梳理在运业务系统,按照“盘点数据,厘清数据状况”、“关联业务,构建数据目录”的工作思路,形成的从业务体系出发的数据资源目录。切实解决数据描述不统一、颗粒度不一致等问题,支撑企业各业务部门、各单位快捷查询和定位数据,为核能产业数据资产共享流通、创造价值打下坚实基础。
(2)数据资源目录
数据资源目录是依据规范的元数据描述数据资源,站在全局视角对所拥有的全部数据资源进行编目,以便对数据资源进行管理、识别、定位、发现、共享的一种分类组织方法,从而达到对数据的浏览、查询、获取等目的。
数据资源目录的建立能够准确浏览组织内所记录或拥有的线上、线下原始数据资源,如电子文档索引、数据库表、电子文件、电子表格、纸质文档等。数据资源目录是实现组织内部数据资产管理、业务协同、数据共享、数据服务,组织外部数据开放、数据服务的基础和依据。
数据资源目录建设首先定义数据资源目录元数据、目录分类编码等,制定元数据和目录分类编码标准规范,然后对组织内部数据资源进行全面调查和盘点,依据事先约定好的元数据和分类标准梳理数据资源目录。
(3)数据资产目录
数据资产目录建设是在数据资源目录建设基础上,识别对企业有业务价值、决策价值、应用价值等经济、社会价值的数据资源目录,对识别出的数据资源目录中原始数据资源进行标准化处理、安全分类分级、数据质量提升、数据认责等数据治理工作,按照一定的信息逻辑、业务逻辑建模,对识别出的数据资源目录进行更新或重组,编制形成贴近业务、统一标准、具有经济或社会价值的数据资产目录。
编制数据资产目录可以给出业务场景和数据资源的关联关系,降低理解系统数据的门槛。(中国政府为推动跨部门数据共享开放而重点布置各级政府和代替政府履行一定公共服务职能的企业开展的重要数据管理工作,国务院和发改委先后多次发文,并已出台数据资产目录管理的系列国标);
数据资产目录是企业数据资产的主分类,其中的资产不能同时归属于不同的目录中,以保证资产在目录中的唯一性。并且,数据资产目录构建的角度应该是管理的角度,根据不同数据资产管理范围的划分,由不同的角色进行管理。
数据资产5层结构说明
层级 | 名称 | 说明 |
L1 | 主题域分组 | 描述公司数据管理的最高层级分类。业界通常有两种数据资产分类方式:基于数据自身特征边界进行分类和基于业务管理边界进行分类。 |
L2 | 主题域 | 互不重叠的数据分类,管辖一组密切相关的业务对象,通常同一个主题域有相同的数据Owner。 |
L3 | 业务对象 | 信息架构的核心层,用于定义业务领域重要的人、事、物,架构建设和治理主要围绕业务对象开展。同时,在企业架构(EA)的范畴内,信息架构(IA)也主要通过业务对象实现与业,务架构(BA)、应用架构(AA)、技术架构(TA)的架构集成 |
L4 | 逻辑数据实体 | 是指描述一个业务对象在某方面特征的一组属性集合。 |
L5 | 属性 | 是信息架构的最小颗粒,用于客观描述业务对象在某方面的性质和特征。 |
能源行业以为例数据资产目录示意图
(4)数据共享和开放目录:
数据共享是组织内部因履行职责、开展相关业务需要使用内部掌控数据的行为。其主要目的是通过打破组织内部壁垒、消除数据孤岛,实现提高数据供给能力、提高运营效率、降低组织运营成本。数据共享目录即组织内部使用的数据目录。
数据开放是指组织按照统一的管理策略向组织外部有选择提供组织所掌控数据的行为。数据开放是实现数据跨组织、跨行业流转的重要前提,也是数据价值最大化的基础。对于政府而言,数据开放主要是指公共数据资源开放,对于企业而言,数据开放主要是披露企业运行情况、推动政企数据融合等。数据开放目录即组织提供给外部使用的数据目录。
在数据资源目录的基础上,提取出带有共享属性和开放属性的目录,形成数据共享和开放目录。数据共享目录和数据开放目录的主要区别在于数据属性和应用主体不同,目前数据共享和开放目录在政务领域应用相对广泛。
(5)数据服务目录
数据服务目录是对数据服务依据规范的元数据描述,按照特定的业务场景进行排序和编码的一组信息,用以描述各个数据服务的特征,以便于对数据服务的使用和管理。
数据服务目录的建设是基于组织内已梳理的数据资产目录,以业务场景、应用场景为切入,以业务需求、应用需求为导向进行编制。主要分为两类,一类是数据应用服务,包括指标报表、分析报告等可以直接使用的数据应用;另一类是数据接口服务,提供鉴权、加密、计量、标签化等;
1、通过语义层解决业务人员“理解”的问题
创建数据资源之间的关联以获得对数据更全面的视角;利用语义实现更广泛的对数据业务理解的一致性,避免理解的偏差。
2、 通过目录服务解决业务人员“查找“的问题
目录服务将有关现实世界中的事物(如人、企业、计算机等等)的信息存储为具有描述性属性的对象。人们可以使用该服务按名称查找对象或者像使用黄页一样,可使用它们查找。数据资源目录是对数据存储对象的描述,让人们能够方便、快速的找到所需要的数据。
3、通过数据安全解决业务人员“权限”问题
数据资源目录应建立数据分级和数据共享负责人制度,需要结合企业的实际数据管理业务特性,建立起数据分级制度,明确数据权威负责部门、对应的个体负责人等。明确数据的范围边界和使用方式,清理数据管理及共享开放的义务和权利。
1) 为数据平台建设提供参考依据。
2) 为数据标准管理提供输入。
3) 为跨部门数据共享提供数据目录。
4) 为其他系统数据共享提供数据服务。
各数据管理和服务部门按照“一次采集、共享使用”原则开展数据共享的主要依据。 用于反映对数据的真实供需关系。
数据在系统中交互传输会造成大量的数据冗余,降低网络运行效率。数据经交换后,在多节点同时存在,造成“一数多源”的情形。若数据流动缺乏监管,隐私数据与恶意数据会对网络的安全性造成破坏。复杂的流通结构使数据难以溯源定位,无法做到数据定责。数据成为新的治理主体,其发展趋势严重依赖于历史数据,难以在宏观层面对未来加以把控。
三清单与数据目录关系
建立业务应用需求驱动的数据”三清单“,将打破数据壁垒、简化数据
使用流程,全面提升数据治理质量和数据共享效率,确保数据安全可靠、使用规范、共享高效,为加快推进企业数字化转型奠定良好基础。
三清单满足数据资产共享场景
数据责任清单:供数部门明确本部门可以向其他部门共享的数据清单。数据资产清单是指对数据中有价值、可用于分析和应用的数据进行梳理,形成的目录体系。编制数据资产目录可以给出业务场景和数据资源的关联关系,对每一项数据资产,明确数据资源责任人,即为数据责任清单,是提高数据质量的基础,也是梳理数据需求清单和负面清单的基础。
需求责任清单体现数据资产提供部门的归属,包括数据资产的业务权限方和IT技术支持方。
以清单形式提供《数据责任清单》,包括:资源名称、数据详情、关键内容说明、责任部门、责任角色、监督部门、监督角色、认责流程、数据应用部门、数据应用系统、数据来源、数据获取方式、数据更新频率等
共享清单:用数部门需要其他部门予以共享的数据清单。解决数据整合共享工作依然存在融合共享不充分和应用发展不平衡等问题,引入技术与服务相结合管理模式,赋能新技术的同时,通过数据服务常态化,打通数据应用的最后一公里,提升数据消费和共享能力,消除部门之间的“数据孤岛”和“数据鸿沟”,突破业务壁垒,重塑业务流程,依托数据整合共享促进业务协同,形成多部门间的业务联动。
数据共享应以业务应用为驱动,将数据中心数据向各级单位开放共享,对已授权共享数据需要经管理部门审核,对敏感、涉密数据进行处理后按需开放共享。对未授权共享数据应有需求部门申请,经数据管理部门和业务部门授权同意后进行统一受理并开放共享。
需求清单体现用户部门的权利和义务,列名用户用数内容、用数目的、用户方式。
以清单形式提供《数据需求清单》,包括:明确数据资源名称、提供方、信息项、更新周期、共享属性和开发属性等内容、责任到职能部门,推动各部门数据共享、定期更新,全面提升数据治理质量和数据共享效率。
负面清单:安全部门基于法律、法规、规章明确规定不能共享的数据,列入共享负面清单。负面清单是指不能直接共享使用,需经数据提供部门对数据用途、提供方式、脱敏要求进行审核后方可共享的数据清单。
数据共享负面清单有助于提高负面清单外的数据共享效率,简化数据使用流程,提升数据流通效率有助于数据资源要素在服务公司⾼质量发展等全⽅位发挥重要作⽤。
制定数据负面清单的依据
1、商业秘密和工作秘密。依据《中央企业商业秘密保护暂行规定》、《国家电网公司密级范围的规定》中明确的涉及商业秘密和工作秘密的数据,纳入负面清单,包括密钥密码、境外投资、“三重一大”事项、重要会议、案件、舆情、巡视信息,领导行程、出访信息、通讯录等。
2.个人隐私信息。《中华人民共和国网络安全法》就个人隐私保护做出了具体规定,要求搜集个人隐私信息应遵循“合法、正当、必要的原则”,“建立健全用户信息保护制度”。根据此项要求,结合业务特性,将个人证件号码、电话、家庭住址、银行账户、奖惩信息等部分个人隐私信息纳入负面清单范围。
3.其它敏感事项。依据《中华人民共和国招标投标法》、《中华人民共和国招标投标法实施条例》、《审计项目电子数据保密管理办法》、《审计机关审计档案管理规定》等法律法规,涉及评标过程、结果,投标标底,评标专家等信息,涉及审计事项、问题线索等相关数据,纳入负面清单。
共享负面清单体现数据安全管理部门的管理要求,以促进共享使用为原则,对信息安全有管控要求的数据予以限制。
以清单形式提供《数据负面清单》,包括:明确数据资源名称、提供方、信息项、更新周期、共享属性、负面表现形式、不共享原因、负面管理措施及方法等。
n 自顶向下就是根据企业业务价值链及数据应用场景厘清主题域之间的逻辑关系,然后不断进行细分;再针对业务对象进行梳理,定义各个业务对象下的逻辑数据实体;最后盘点每个逻辑数据实体包含的属性,包括属性名称、属性定义、计量单位、值域范围等内容
n 自下而上补充则是对企业所有的信息系统现状调研,摸清有哪些数据,存储在哪些地方;再对信息系统数据进行统一采集和存储;最后对采集的系统数据项进行盘点,包括字段名称,类型、长度、约束等内容
数据资源目录建设方法
围绕企业相关的业务主线涉及业务系统,并结合企业已有资产内容,明确盘点数据现状、数据表范围等信息。
根据数据资产盘点系统范围,开展相关源系统现状调研,源系统盘点范围梳理、源端系统盘点范围确认、数据盘点工作量评估、业务功能模块梳理。
结合企业现有业务、信息系统在运和数据平台现有数据资产汇聚情况,深入调研各专业业务现状及系统运行现状,梳理各系统数据库、表、字段等基础信息,形成层次清晰、覆盖全面的专业数据库表目录。
根据数据盘点工作范围和源端系统收集情况,利用企业相关盘点工具开展数据关联关系确认,对工具无法识别、未识别关联关系的数据表进行线下梳理、增量完善分批次开展数据关联关系梳理工作,然后完成数据资源盘点工具中的数据关联关系。
然后根据业务模块梳理成果,按照业务模块与数据表的关联关系开展梳理工作,形成业务关联关系清单。
最后根据无效字段、数据关联关系、业务关联关系盘点结果,将最终盘点结果完善到数据资源盘点工具中。
在盘点过程中充分承接业务流程梳理成果,将业务流程中涉及的系统数据项与业务端输入L1-L3做映射,交叉验证,相互补充
数据资源目录梳理时,将盘点好的数据资源汇总构成数据资源目录的同时,也要从数据资源内容层面进行梳理,将数据资源依据业务进行分类汇总融合。
利用企业现有数据资源盘点工具,对相关业务系统数据存在的表描述、字段描述缺失、字段描述有误情况进行核查,然后反馈源业务系统厂商和数据中心管理人员对问题进行补充及完善。
针对新建业务应用和新建系统间数据需求,统一基于数据平台的数据服务实现,按照业务应用、业务系统的数据获取需求辅导数据管理人员构建相关资产服务,形成规范化的数据资产管理目录。
辅助企业按照业务机制、数据类型等建立线上数据资源目录审批及发布流程,支撑数据资源目录的规范化管理和维护机制。
最终通过构建统一数据目录体系,加强数据目录优化和完善,切实解决数据描述不统一、颗粒度不一致等问题,支撑各业务部门、各单位快捷查询和定位数据,为后续制定数据标准、建立数据规范、开展数据治理、实现数据共享奠定基础。
《数据资产目录清单》,包括不限于:数据分类、数据细目、数据类型、更新频率、具体说明、技术属性、业务属性、管控属性等。
数据资产目录模型示意图
数据资源目录模板
数据资源目录覆盖业务、技术、管理、操作四类元数据,30多个元数据元素,支撑数据资源目录框架、数据标准、数据质量、数据模型、数据确权、数据安全、数据开放共享、数据运营维护等数据管理领域,全方位支撑数据治理与价值发挥。
数据资源目录模板
结合企业数据资产管理、质量管理、供需管理情况与特点,促进数据资源整合和利用,推进公司内外统一、高效的数据共享与分析服务,满足横向跨专业间、纵向不同层级捡数据共享和融通需求,建立分领域跨部门的数据整合应用机制,以数据资产活化、数据创新为原则,以数据资源目录为共享基础,根据各系统各部门、各运维厂商数据管理职责,完成《数据责任清单》、《数据需求清单》、《数据负面清单》的梳理,并对最终成果进行发布,从数据采集、存储、整合、共享、应用等全生命周期过程形成标准化责任体系,相互联系、相互作用、相互约束、相互补充,从而构成一个统一整体。
数据资产治理体系的建立将为企业数据资产的准确性、一致性、完整性、实时性和安全性提供管理机制上的保障,数据认责是对企业范围内各相关方的数据管理职责进行分配,从而明确彼此间的工作边界以及协作机制, 这是企业构建稳定而规范的数据治理体系的重要基础。
数据认责建立与实施应该遵循DCMM数据能力成熟度体系标准,围绕业务数据的产生、流转、应用、归档全生命周期进行相关工作开展。
构建数据认责机制框架通过“核对→录入→审核”三个完整闭环,建立数据录入规范;按照“谁录入、谁整改、谁负责”的原则,明确数据质量责任主体及工作职责,建立数据认责管理办法及流程。
根据数据认责主题及工作职责,明确认责数据范围边界,按照业务归属进行数据业务域及主题分类,并且对认责数据内容进行优先级排列。
数据颗粒度需要结合行业或者业务的需求,对数据进行表级别或字段级别识别并且细化,从而明确数据颗粒度责任主体,形成认责清单,并通过数据的权责确认和标准化工作,明确数源和标准,确保一数一源,按需共享。
明确数据价值链的参与方与角色定位,包括不限于:数据使用者、数据所有者、数据提供者、数据管理员。
基于现有的业务和系统现状,定义数据责任规范矩阵,明确数据价值链的参与方的职责分工。
数据开放共享需遵循公司促进数据共享的总体思路,基于数据资源盘点成果,实现线上数据开放共享服务,建立数据开放分级授权机制,明确各单位、各专业数据应用需求,提供统一的数据服务及应用工具支撑,全面提升企业数据共享融通及服务能力,充分发挥企业数据价值。
数据共享范围梳理工作采用线下梳理的方式,由各业务部门根据梳理范围,根据《国家网络安全法》、《国家商业秘密管理办法》及企业管理、涉密管理相关规定,全面理清涉密数据,形成的《共享数据清单》、《数据负面清单》,结合数据资源目录,建立数据分级授权机制,包括:确定数据共享梳理范围、数据共享层级梳理、数据共享层级确认、数据共享成果物梳理、数据共享范围发布。
推行“三清单一数据目录”工作机制,企业根据各自职责明确需求清单、责任清单、负面清单,并通过“三清单”机制支撑供需管理,切实解决数据描述不统一、颗粒度不一致等问题,支撑企业各业务部门、各单位快捷查询和定位数据,推动各数据源单位主动归集数据,促进共享,并对数据资源实行统一目录管理,实现内部数据资产目录统一检索、快速定位和统计分析,实现数据资产地图展示、逐步形成知识图谱,为企业数据资产共享流通、创造价值打下坚实基础。