中兴网信研发总监陈友雄:大数据治理和数据分层治理架构

1781
0

小亿 管理员

发表于2021-9-25 15:49

楼主
9月25日,由亿信华辰主办、DAMA中国协办的2021第三届数据治理峰会在上海盛大举行。筹备了4个多月的数据治理峰会获得了众多企业CIO、CDO等高管的关注,参会人员达到500余人。12场行业高端主题演讲分享,场外产品体验区火爆程度再翻倍。【大会专题

中兴网信研发总监陈友雄先生受邀出席,并发表《大数据治理和数据分层治理架构》主题演讲。以下为演讲实录:


1_看图王(1).jpg


    各位老师,各位专家,大家下午好!我是来自中兴网信的陈友雄,很高兴有这样一个机会跟各位专家、各位老师一起面对面分享数字治理。今天,我为大家带来的主题是《大数据治理数据分层治理架构》。
    深圳中兴网信科技有限公司是中兴通信旗下专注于智慧城市的控股公司,主要面向市民、企业、政府提供智慧服务,涉及到的行业有环保、医疗、安全、旅游等等,特别是环保领域,  大家以后如果有环保业务可以考虑我们。
    我的主题分为三个方面:
    第一,数据治理的背景。
    第二,分层治理架构。
    第三,业务实例。
    一、数据治理面临的挑战。
    大数据时代背景下,各行各业都在进行数字化的转型,转型过程中有很多行业都遇到了共性的问题和痛点。比如说信息孤岛、信息壁垒、数据杂乱、找不到、数据质量很差、数据标准不统一,还有死数据,浪费掉了。因为有这些问题,所以才有发展,右图是从信息到知识的转化过程。数据资产形成以后,我们通过API的开放,把资产数据分享或者共享给各个业务应用,为各个业务应用的决策做支撑,这是背景。
    二、分层治理,拨云见日。
    大家看到这个图,是信息分层,数据治理架构全流程的图,分为三个步骤:
    第一,业务数据化,主要是做两个工作:一是把异构的数据源进行业务梳理,二是把梳理好的数据进行统一的集成,形成原始数据层ODS。
    第二,数据资产,数据资产是在已经集成的数据基础上,把数据进行统一的存储、统一的管理、统一建模等等。我们统一数据标准,统一元数据,统一数据清晰、统一数据安全等等,最后形成统一的数据资产。
    第三,资产服务化。我们第二大步形成的数据资产通过资产服务的API能力开放,把有价值的数据资产开放给各个业务应用对象,让各个业务应用进行数据的计算。
    这一部分是我们根据数据治理的理解,项目的成功经验总结出来的五层数据架构。大家知道,数据治理成功的关键就是建立合理、稳定的数据架构,通过构建数据分层架构,可以更好的管理、共享这个数据。
    五层系统包括:
    第一层,ODS层,原始数据层,主要保留最细节,最原始的数据,为原始数据做一个备份。
    第二层,CDS公共维度层,主要提供业务过程的维度。
    第三,DWD,详单数据层,面向业务过程,主要有一些实施详单的宽表组成。
    第四,DWS,根据不同的维度对详单数据层的数据进行汇聚、计算,最后形成具体数据层。
    第五,ADS,应用数据层。根据项目的实时需求,灵活的把聚集层和详单层的数据进行整合,满足数据的要求。
    我们分层有两个优势:
    第一,介绍冗余的存储,统一数据底座。同一个行业,不同项目有很多数据是通用的,可以共用,可以复制,可以集成。比如说我们的详单汇聚层和CDS公共维度层。在项目当中,要关注ADS层,应用数据层,应用数据层是从详单层和聚集层组合而来,所以我们项目过程当中就是做一件事情,数据组合。
    第二,减少计算资源,缩短计算时间。右下角的图是我们项目实施过程当中通过不分层和分层做了一个对比,它的效果还是有一点明显的。
    接下来我们看一下数据分层里面的数据标准,我们做数据标准的时候,以维度建模为基础,结合对于业务的深刻理解,总共建了八大数据标准:
    第一,业务域。
    第二,维度。
    第三,数据质量。
    第四,单位技术指标。
    第五,复合指标
    第六,约束条件。
    第七,数据层级。
    第八,数据类型。
    我们以业务为基础,维度为依托,最终构建项目当中的总线矩阵。
    接下来我们看一下数据质量,数据质量贯彻数据治理其中,除了ODS层之外,每一层都建立了各层级的质量规则和质量落地评估,把完整性、一致性、有效性、准确性、及时性落到层级的数据质量里面去,最终形成我们的数据质量体系。
    接下来是分层数据建模,我们以一个小区的移动宽带业务为实例跟大家分享一下,我们建模之前有统一的一致性维度,为数据轴,对这个项目进行划分。首先,我们建立了业务的连接,进行连接的切换,切换完成以后,把老的撤掉,使用新的。在这个过程当中,我们建立了三个大的维度:小区维度、栅格维度、用户维度,我们把这个维度和业务组合到一起,就是数仓理论的总线矩阵。
    接下来是分层数据资产。同样,这个数据资产我是以小区移动宽带业务作为实验,这个项目分为三个层级:6个一级域,20+二级域,200+的三级子域,主要为了实现资源分类,把各个资源实体落到不同的类型上。
    数据开放有三个层面:分层权限、分层API,分层数据服务管理。
    分层数据服务管理有四个优势:
    第一,API分层管理、授权。
    第二,实现各层级数据资产松耦合。
    第三,接口返回更高效,更专一。
    第四,提供的信息更加丰富、灵活。
    合规,审,计主要是日志方面的审计,然后是访问溯源。
    第三个大的安全就是数据安全,包括五个方面:
    第一,储存加密。
    第二,数据传输加密。
    第三,备份、
    第四,数据校验。
    第五,数据脱敏。
    应用安全分为两大块:一块是分层服务一块是分层数据。分层服务有两大能力,一个是服务能力,第二个是交易服务安全。
    分层数据,主要有三个方面的数据安全:
    第一,公有数据安全。
    第二,数据跨境安全。   
    第三,数据流全生命周期安全。
    我们建立分层、数据安全的目的就是三个:
    第一,让数据可信。
    第二,让数据可管。
    第三,数据可控。   
    三、业务实例,主要是和大家分享一些项目实例。 分享之前,我想和大家首先说一下环保大数据分层体系是怎么分的。环保大数据平台主要是分四个方面:
    第一,一个平台,大数据平台。
    第二,一个中心,环保大数据决策指挥中心,主要是为环保监管者提供决策支持。
    第三,两条主线,属地纵向管理线,行业横线管理线。
    第四,六大应用,生态监测、监督、监管,综合分析、应急智慧和公共服务。
    现在大家看到的是我们分层治理实施的项目实例,电信大数据分层治理,这个平台数据治理架构跟业界通用的架构大同小异,差不多。最下面的就是数据元清单。通过ETR工具,把不同的数据元清单形成大数据平台,最后对数据清晰,形成统一的数据资产。
    在数据资产落地之前,我们首先根据业务域把数据资产进行分类,这个项目总共分三大类,数据资产落地以后,我们通过API能力开发,把数据提供给各个对象。这个项目有四个方面的特点:
    第一,数据量特别大。
    第二,任务标注非常频繁。
    第三和第四,客户对稳定性要求非常高,安全性要求非常高,所以我们稳定性和安全性上面花了很长时间。
    最后,跟大家分享两个环保大数据平台的项目。
    第一,濮阳市生态环境局,这是中兴网信携手亿信华辰一起建的,我们的大数据平台用了亿信华辰的睿治平台加上Petabase-s平台,为濮阳市生态环境局搭建智慧环保综合监管平台,总共接入了30多个系统,解决了多元异构,数据采集,权属分析融合等问题。这个系统大数据方面,分五个子系统:采集、储存、资源录入、计算、监控平台系统。   
    第二,我们正在交付的项目,连云港生态环境局,这个项目也是我们中兴网信和亿信华辰一起正在实施的项目。我们采购了亿信华辰睿平台和Petabase-s,为连云港市生态环境局搭建生态环境大数据管理平台,对污染源、第三方监测等各类环境数据进行全量的汇聚加工,整理分析,提升环保企业大数据决策水平。   
    这是我全部的分享。再次感谢各位领导,各位专家,各位老师的聆听,希望咱们的亿信华辰睿治平台,越来越睿智,越来越专业。谢谢大家!


0个回答

只看楼主

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

400咨询:400-0011-866

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号