-
夜袭光棍村 小试身手Lv3
发表于2019-3-8 14:45
楼主
数据治理中缺少的是统一的数据治理框架,它可以解决管理数据中最令人困惑的问题。但首先,我们必须牢记三个宏观问题,这些问题正在推动需要发现和修复三个阻碍治理成功的关键罪魁祸首。
首先,对数据洞察力的需求呈指数级增长。更多数据和对洞察力的更多需求意味着构建统一的企业数据治理框架,将所有重要的数据存储库和应用程序放在你的指尖。据福布斯报到80%的分析项目用于数据准备,从而减少了分析时间,从而减少了完成的分析项目。即使适度减少数据准备时间,也可以缩短产品上市时间,节省你的业务资金并为你提供竞争优势。关键是要构建一个统一的数据治理框架,允许你在一个简单的界面中查找所有数据和应用程序资产及其关系。
数据治理框架中的裂缝 正如大多数专业人士从他们的个人经历和计算机周刊所了解的那样还指出出现了三个常见问题,即数据治理框架出现问题 - (1)数据沿袭,(2)数据不完整,(3)数据冗余。想象一下数据治理控制台,您可以立即查看所有数据源和目标以及对此数据执行任何操作的所有应用程序,包括报告和分析?想象一下,该控制台还向您显示有关应用程序的数据转换规则,数据质量规则和操作元数据!想象一下,在为新的分析项目准备数据时,它将节省多少时间!如何识别存储有关客户的任何个人身份信息(PII)的所有数据对象?大多数企业没有这样的数据治理控制台的原因有两个简单的原因 - 如果没有自动化,实施起来既复杂又昂贵。
然而; 在我们深入研究数据治理框架中缺失的元素之前,让我们对元数据和数据质量市场有一个宏观的了解。
我们如何通过统一数据治理框架削减数据责任? 组织没有完全解决这些棘手问题(数据沿袭,数据质量和PII)的原因是因为它们很复杂且难以解决。解决它们的驱动因素也有三方面:
1、没有自动数据沿袭,devops在数据识别和准备上花费了太多时间。
2、糟糕的数据质量会降低信心并增加返工时间和上市时间,从而导致资金损失和失去机会。
3、无法检测到所有PII数据会导致违规行为受到处罚,并且会损害市场中的组织声誉。
问题是,是否有更好的方法来解决它们?
元数据困境:它很复杂,因为它很复杂 - 数据治理框架中缺少的DNA是自动化元数据提取。巨大的挑战是从复杂的SQL脚本,存储过程和其他遗留语言(如COBOL或SAS)中提取元数据并不容易实现自动化。然而,如果没有能力扫描元数据并通过源到目标之间的转换提取准确的数据沿袭,您最终会在数据沿袭中出现空白。如果没有完整的端到端数据沿袭,您将花费时间手动填补空白,从而节省您的时间和金钱。
下一代元数据:谱系提取器 - 首先,什么是谱系提取器?简单地说,这是一种基于技术的方法,该技术通过所有复杂的SQL脚本和存储过程来完成技术数据沿袭图。沿袭提取器的核心是一个自动化过程,它不仅扫描源到目标连接的元数据,还解码其间的数据转换。这是缺失的DNA,解决起来非常复杂。谱系提取器远远超出了table.column定义的扫描元数据,并解码了源和目标之间的数据转换(通常在ETL或ELT应用程序中实现)。
下一代数据沿袭:降至记录级别 - 为什么需要深入到细粒度记录级别的详细信息?这很简单 - 解决诸如GDPR之类的监管问题,记录级数据沿袭识别个人可识别数据(PII)存在的位置以及它在整个内部和外部系统中的移动方式。关键是通过自动化PII数据跟踪流程,将元数据分析利用到记录级别,以便揭示所有PII数据。
数据质量困境:根本问题始终是上游 - 每个企业都有DQ策略,各种工具实施规则,以找出质量差的数据。但在申请上游正在做什么?通常,IT通过创建测试用例,测试数据,指定预期结果,运行测试脚本,报告测试状态以及管理所有测试工件来执行手动测试。这种方法对IT来说很费力并且容易出错。传播到下游的任何错误都会影响BI分析,以及业务用户何时(只是时间问题)表面数据质量问题,除了延迟BI分析之外,它总是会导致IT重新找到并修复根本原因。问题是有更好的方法吗?我们需要的是自动化测试平台,可以根据需要自动,重复地轻松测试任何数据应用程序(ETL / ELT),并保持所有测试运行的历史记录。如果您使用敏捷开发方法,您甚至更少的时间来测试应用程序,这就变得更加重要。数据密集型应用程序的自动化测试必须成为数据质量战略的支柱。这应该集成到您的数据治理框架中。
下一代数据质量应用测试:解决上游DQ问题正面 - 很少有企业通过数据应用测试增强了他们的DQ策略。您可能想知道什么是数据应用程序测试?它只是一种自动化用于应用程序测试的典型手动方法的方法。其中一个最大的问题是,这通常是一次性或即时检查策略,使组织容易受到风险的影响。数据应用程序测试包括所有手动工作,通过支持所有类型的测试来提高运营效率 - 单元,系统和集成,回归和性能测试。最终目标是减少ETL应用程序中的时间,成本和错误。
选择一款数据治理平台 睿治平台包含但不限于下面几种功能
1、数据标准
对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性,从源头确保数据的正确性及质量,并可以提升开发和数据管理的一贯性和效率性。
2、元数据
采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力,通过元数据之间的关系和影响挖掘隐藏在资源中的价值。
3、数据质量
有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议,全面提升数据的完整性、准确性、及时性,一致性以及合法性,降低数据管理成本,减少因数据不可靠导致的决策偏差和损失。
4、主数据
帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。