-
辰哥 管理员
发表于2019-6-19 17:16
楼主
当今,数字化转型正在各行业快速发展,以数据、流量、知识为主的的数字经济时代到来,数据在其中的重要性不言而喻。
在企业内部,数据团队正逐渐变成一个专业、独立的部门,未来数据部门的肩上要扛起包括保证数据质量、管理数据架构、提供平台与工具等在内的各种数据相关的职责,来支持各方对数据的使用、形成企业的数据资产。做为支撑数字化转型的基础设施,数据治理已经成为数据团队履行数据职责的重要手段。
我们正在尝试通过一些智能化的技术来实现数据治理,建立企业统一的数据工作环境。本文主要介绍了通过智能化的手段来实现大数据治理的一些技巧,以及其中的核心技术。
目录:
- 治理数据,从发现数据问题开始
- 三个智能化大数据治理的案例
- 大数据治理的十大智能化能力
- 总结
一、治理数据,从发现数据问题开始
科学探究的过程一般是从发现问题开始的,数据治理也是如此。先发现问题,再寻找解决方法,最后提供相应的技术支撑,这是做数据治理的一般思路。
1、企业中常见的四类数据问题
在颠覆企业业务的数据经济时代,数据无疑成为企业拥抱变化的基础,数据跟实体一样变成了生产资料的一部分。但是我们仔细观察之后,会发现企业存在着各种各样的数据问题:
第一类问题就是数据资产不清晰。 现在很多企业都不了解自己的数据,企业中到底有多少数据?数据都是什么样的?这些数据到底可以发挥什么作用?很少有人能准确回答出这些问题。
第二类问题是数据质量不高。 现在因为数据质量不高而影响企业业务的例子有很多,在这里就不多说了。
第三类问题是业务和开发的协作问题。 数字经济时代,业务对数据的需求和以前不同了,以前在数据仓库的模式下,开发是先把一些工具归并出来,再做成一个整合提供给业务,现在业务需要进一步明晰数据是什么,要自己看有哪些数据可以发挥出想要的价值。
还有一类问题是知识和数据难以关联。 比如我们发现拿给业务看的数据和业务概念之间往往不能很好地匹配。举一个金融行业的例子:业务想要一个头寸的数据,但是到底在哪个地方,哪一种头寸说不清楚,像这种数据和知识的关联是很难建立的。
2、通过大数据治理提供多种数据服务,从根本上解决数据问题
传统数据治理更多是在强调通过一些流程和制度把数据质量提高,并不能很好地解决以上种种数据问题。现在做数据治理,更多是为大家提供统一的数据服务的能力,从而让数据问题得以解决。
这样的环境应该包括哪些东西?需要能解决一些什么样的问题?简单总结就是四个字:管(Manage)、看(Browse)、找(Discover)、用(Apply)。
管:这部分不用多说,也是之前做数据治理的重点。
把海量的数据管起来,需要建立元数据的模型,比如说我们做客户画像的时候,可能根据客户信息建一些元数据,做服务数据的时候,可能会根据交易接口做一些元数据,做数据仓库的时候,可能会根据这个数据仓库建立一些元数据。我们管的时候,需要建立整个企业层面的元数据以及跟合作伙伴打交道的元数据,这样才能把所有的数据和数据之间的关系统一整合起来,而这些元数据不是手工录入进去,而是采进去的。后面会讲到我们元数据的智能化采集,这是能体现数据治理智能化的概念之一。
看:管理层面的人都比较关心企业数据的总体情况,如何才能让领导和员工都能了解到企业数据资产的情况?让企业数据以 360 度的方式呈现在大家面前?
很多人都说过数据治理太技术化了,做完之后领导看不到效果,业务价值难以体现。能否“看”得到,是我们在做数据治理时能否拉到同盟军,建立统一战线的一个非常重要的手段,如果到最后连效果都看不到,很难把数据治理推行下去,也很难得到领导的支持。“看”的部分是能展现数据治理效果、决定数据治理成败的主要部分。
找:如何才能在海量数据中把数据和其中的关系找出来?如何让业务像 Google 搜索一样来查找需要的数据,而不是还像之前一样只能接收经过开发整理好的数据?如何才能找到汇总数据之外的数据,比如指标数据、明细数据?
要想实现“找”,要建立业务元数据跟技术元数据的匹配,后面会讲到我们用到的知识图谱技术,其中的难点是如何通过业务含义来查找数据,如果从技术含义找这些数据其实问题不是很大。恰恰我们做数据分析做使用都是从业务含义上来找,需要找到语义以及语义的上下级的关系,并且做一个延伸的搜索。
用:找到数据之后,如何快速有效地用起来?
很多人可能会问,找都找到了,“用”还不简单吗?其实没有那么简单,脱敏怎么做?大家出现争执的时候怎么做?供数部门说我已经给了你 5 个 G 的数据,需求部门说我怎么没有发现?这时候就需要一个裁判,来判断究竟是谁的问题,这 5 个 G 的数据是没有取走,还是提供的数据有问题,这是用的问题。
以前把数据清洗完进仓库,到集市里面去,时间非常长。现在我们通过数据治理这个统一的工作环境来干这件事情。在这个工作环境里面把管、看、找、用四件事全解决了。而如果仅仅站在传统数据治理的角度看这个事情,很难把这个事情做好,必须把这个事情放大,提供这样一个统一的数据工作环境,让大家用这个数据。这是我们做数据产品十多年来总结出来的一些经验。
2、智能化还是纯手工?
通过手工的方式,也可以基本满足提供多种数据服务的要求,但是我们知道手工方式的代价和成本太高了,需要选择更智能化方式来实现大数据治理的工作。如果不能做到 100% 的自动化,那就尽可能追求最大程度的自动化,只要做到一部分就有非常大的帮助了。
二、三个智能化大数据治理的案例
与传统数据治理相比,智能化大数据治理需要在四个方面有所突破:
- 转变目前数据团队的目标与组织架构,明确面向数据自服务的数据管理职能;
- 梳理现有全业务系统的数据架构,形成可逐步演进的企业元数据;
- 为数据的使用方提供数据生产线,为数据的收集 / 转换 / 存储 / 探索 / 可视化等提供方便的工具和研发过程;
- 建设有别于数据仓库的数据湖,在此之上形成企业数据资产。
下面用几个例子跟大家分享一下我们今年在做智能化数据治理上做出的一些成果:
1、深化医改与应急救治卫生行业的数据质量监测
随着国家医药卫生体制改革的推进,对卫生统计工作又提出了新的要求。原来的统计直报系统调查内容涉及范围不够全面和广泛,只能产出一些固定统计报表,数据查询分析展现形式不够丰富多样,数据质量问题日益严重,不能对卫生统计数据进行深入的分析挖掘,机构、人员注册管理功能并不能完全满足实际业务需求,种种原因导致卫生统计数据的价值不能得到充分发挥。
因此,迫切需要建设一个卫生信息综合应用系统, 重新整合卫生资源与医疗服务等主要医疗卫生业务数据,整合各种业务功能,使数据的组织存储更加合理,使数据分析、信息挖掘更加简单高效,为各级卫生机构提供准确、便捷的信息访问服务,为深化医改与应急救治提供信息支撑,为制定卫生政策规划与宏观管理提供科学依据。
基于业务需求,设计系统架构图如下:
通过系统实现的领导看板、辅助决策、GIS门户以及移动门户,为用户提供丰富多样的展现方式。领导看板模块摘取关键业务指标,直观明了展现分析数据;辅助决策采用图+表+文字描述,较好地满足统计工作的需要;GIS门户将卫生信息与GIS地理信息相融合,实现定点、定区域卫生资源分布情况展示分析;移动门户则将摒弃传统的PC端展示,采用时下流行的移动终端访问服务,随时随地获取卫生信息数据。
上线的数据质量控制功能,实时监测上报数据质量,分析数据质量情况,定期产出数据质量评估报告,避免了人为干预,实现数据质量控制的科学性与合理有效性。尤其是系统推出的违反规则明细查询功能,明确指出各直报任务常见出错问题,深受用户欢迎。
2、提升食药监数据信息孤岛零存储无标准的智慧数据治理平台
随着信息化建设不断推进,安徽省食品药品监督管理局现有数据存储及处理方式已经不能够满足日益发展的多样化数据应用需求。
由于安徽省食品药品监督管理局信息化建设尚处于起步阶段,数据零散存储分布形成信息孤岛,无法进行数据分析与综合应用。
A 缺乏数据共享平台
面对不同来源的数据,缺乏统一的数据交换平台。对内的数据共享、对外的数据交换都依赖于特定系统,技术实现复杂,维护成本高。
B 数据综合分析缺失
当下的数据情况已经不能适应食品药品精准监管的需要,急需数据治理,构建综合数据中心,统一数据共享交换平台,并对数据进行分析应用,从而最大限度挖掘数据的价值。
为加强信息化建设,发挥信息技术对全省食品药品监管工作的支撑作用,通过数据中心建设,制定安徽省食品药品监管数据规范,促进全省系统信息化建设规范化、标准化;通过数据工厂,进行内部业务系统数据集成;统一建立食品药品数据交换平台,实现内部业务系统之间、上下级食品药品监管机构之间以及对外跨部门交换共享;实施历史业务数据规范化处理,通过数据归集和挖掘分析,实现精准监管。
三、数据治理的十大智能化能力
智能化支撑数据标准构建
数据标准是对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并且提供运维这套数据标准成果的流程。通过数据标准化可以防止用语的混乱使用,维持企业数据模型的一贯性,确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
智能化规范系统数据模型
元数据管理即包含元数据模型管理。元数据对数据的属性(名称、大小、数据类型等)和关系(依赖关系、组合关系)进行描述,并对数据在使用中的变化进行识别、追踪、展示(血缘分析、影响分析、全链分析等)。通过元数据管理建立系统数据模型,奠定数据治理的基础。
智能化梳理企业数据资产
在这个自动化梳理企业数据资产的过程中,有很多需要实现的技术点,报表可能用开源做的,ETL 可能是用存储过程写的,需要分析不同类型的数据库,分析不同代码的结构。
汇总、存储所有参与数据治理平台的各个系统的数据资产,确保数据资产的一致性和完整性,让管理者可以一目了然的了解到所有资产,发现不良资产,提供决策依据,提升数据资产的价值,数据资产包括资产的目录及数据。
智能化形成大数据生产线
这是整个数据处理的自动化,我们发现其实大多数数据处理、数据清洗的过程都是简单重复性劳动,我们知道机器最擅长做的事情就是重复性工作。举个例子,加字段是一种最常见的数据变更,手工的方式一般是先做一个临时表,把新字段和数据放到临时表里面,再把新表和老表之间做一个关联。数据生产线里面,像这种操作可以直接由系统完成,大家需要做的就是在系统里面做选择题,选择具体由哪种方式来实现想要的操作。
智能化企业元数据服务
企业元数据其实有很多,有技术模型、业务模型、服务模型等。把这些元数据采过来的目的应该不只是形成企业地图,实际上是要通过数据服务的方式对外提供元数据。
智能化数据安全管控
以数据的安全使用为目的的综合管理,可以确保企业数据资产的角色和权限,进而确保敏感数据与机密数据的安全。在在数据使用和访问过程中针对潜在风险进行预警;对异常行为进行监控;对数据库帐号,权限变化状况进行追踪。
智能化数据集成
通过数据全生命周期处理的应用平台,是实现数据集成和数据管控的利器;在数据质量管理平台发现数据问题后,能利用灵活的清洗转换组件为数据质量的提升提供帮助。
智能化数据生命周期
数据归档和销毁,并监控展现数据的生命过程。
智能化数据共享
通过数据资产、主数据,将资产共享给其他用户。
智能化数据交换
使若干个应用子系统进行信息/数据的传输:
1、使用消息中间件完成数据传输
2、解决不同节点之间的数据传输问题
3、发送方将数据从业务系统传输到消息中间件,接收方将数据从消息中间件传输到应用系统
总结
与之前只需要做好数据管控的传统数据治理不同,在数字经济时代下,为了快速响应业务需求,支撑业务创新,现在数据治理的目标是要建立一个大数据的工作环境,用智能化的方式建好各种数据服务是关键,我们将不定期推送数据治理相关的文章与经典案例,欢迎大家持续关注我们。