大数据治理需要具备哪些能力和关键技术?

1605
0

数据王子 数据达人Lv4

发表于2019-3-6 17:00

楼主
为什么我需要数据治理和大数据?
       数据治理使组织能够处理其拥有的数据,从该数据中获取更多价值,并使用户可以看到该数据的重要方面。它还提供管理这些方面的功能。这不仅是因为现有数据的错误和遗漏,而且因为数据的新用途通常需要新的属性,因此需要新的元数据来支持它们。
数据治理需要什么?
      
从人和流程开始
       数据治理是关于启用和鼓励有关数据的良好行为,以及限制产生风险的行为。无论您是在大数据环境还是传统的数据管理环境中,都是一样的。使组织能够识别谁负责数据,协作设置策略和制定决策,就如何使用数据及其用途创建明确的协议,了解某些指标和信息的来源,并确定变更对业务的影响数据。这些都是任何环境所需要的。
      
使用技术作为上述的推动者
       这些过程通常变化很大,涉及组织不同部门的许多不同利益相关者。他们也是时间敏感的。特别是在大数据场景中,数据变化的类型,数量和频率一直在增加。虽然可以执行一次或两次这些任务,但如果没有专门的系统和自动化,就不可能连续执行治理。以同样的方式考虑这一点,我们的大多数业务流程都需要自动化,以便高效,高效地执行。此外,与任何其他流程一样,必须测量和管理数据本身的治理,以便在必要时可以提高数据的质量,实用性和安全性。
      
预先确定数据管理的哪些方面对您的业务至关重要
       了解您需要管理的内容是实施适当数据治理的关键部分。虽然所有信息可能都应该受到某些治理的影响,并且应该对其进行编目以便找到,但是有一部分重要信息应该成为任何数据治理工作的重点。这些关键数据元素及其前提是组织决策,服务客户和向监管机构报告的基础。
      
利用现有流程和最佳实践
       数据治理不一定是一项新的繁琐的举措。实际上,由于对抑制因素和开销的感知,一些组织可能会搁置正式的数据治理计划。但事实是,您已经拥有适当的流程,可以作为正式数据治理计划的基础。这些可能被标记为“工作流程”或“业务规则”,但这些仅仅是针对同一组实践的不同术语。使用这些流程作为起点,构建一种策略,帮助您从大数据中获取更多价值。
数据治理的关键要求是什么?
       这些功能中的每一项都可以实现受管理的环境 目录和数据字典元数据的组合为数据策略和使用的可审计性提供了完整的信息。它还包含血统和操纵。工作流控制信息生命周期管理的过程,包括摄取,操作/派生和处置。强大的分布式基础架构可实现业务连续性,快速处理和数据的持续可用性。
      
确保系统可靠性和可用性
       虽然高可用性和灾难恢复等概念通常不被归类为数据治理策略的组件,但这些功能对于数据是有价值资产的任何环境都至关重要。因此,数据治理策略必须包含高可用性和灾难恢复策略。毕竟,如果系统无法可靠地保持运行,那么数据将与相关的数据治理策略一起贬值。
      
识别数据和维护数据目录
       由于各种数据的爆炸式增长,对数据进行编目并使该目录可供用户使用至关重要。但是,这不仅仅是跟踪有关信息的技术元数据。它需要一个可以自动完成该过程的大部分引擎。数据太多,而且手动分类所有内容的速度增长太快。其次,业务用户需要可以访问此目录,因此他们可以“购买”他们检查业务问题所需的数据。这意味着数据的实施必须与业务术语相关联。组织需要一个可以轻松扩充和更新的业务术语表,因为新数据和现有数据的新用途将发挥作用。此外,环境能够跟踪与数据相关的各种资产至关重要,它的使用和加工。
      
探索该数据以识别机会
       获得数据目录后,您需要一种很好的方法来查找该目录中的内容。组织内的不同角色需要以不同的方式看待事物。IT专业人员需要在系统或应用程序上下文中查看数据。安全团队需要根据其隐私策略上下文查看信息,审核员需要通过灵活的可视化查看完整的血统和相关信息,能够在上下文中显示任何类型的关系。这应该与基于角色的视图和模板相结合,以及按角色定制导航,以使业务用户尽可能简单地找到他或她需要的内容。可以使用先进的机器学习和人工智能来帮助找到适当的数据。当然,
      
保持数据的有效性
       保持数据的有效性是两部分的努力。首先是建立围绕数据的系统政策和控制,并确保测量的数据准确性适合其用途。工作流和策略管理功能使了解数据的业务用户可以轻松地协作,协商和批准策略和过程。与IT服务管理系统集成后,可以将策略信息一旦最终确定,即可转移到IT部门进行实施,而不会丢失上下文以及策略及其要求的细节。自动规则可以轻松确定策略是否没有准则。全面的业务沿袭使任何人都可以确定哪些策略适用于哪些信息,哪些业务术语涉及哪些数据,
      
保护敏感数据
       保护数据可能是一项复杂的工作,虽然这种能力还依赖于拥有合适的人员和流程,但该技术可以在确保适当保护方面发挥很大作用。保护敏感数据需要几个步骤。首先,必须确定数据及其敏感性。其次,必须有一种方法可以明确说明围绕数据做什么以及由谁做的政策。第三,必须有一种系统的方法来收集这些信息并将其传播给数据的消费者和能够对信息实施物理控制的技术人员。这三个步骤通常是由实现合规性的需要驱动的,但也与您自己的内部政策相关联。重要的是,
大数据有何不同,以及它如何影响数据治理?
       关于大数据的一些事情改变了之前对数据治理的理解。其中每一项都需要一种新方法来有效地管理数据资产。
      
各种资产,包括工作,模型,可视化
       第一个主要区别是不同类型的数据资产的数量,以及此类别正在增长的事实。
      
数据类之间缺乏物理隔离
       第二个区别是更微妙,但它是我们使用信息管理拓扑分离数据的方式的副产品。通常,我们依赖于某些数据的物理分离,以某种方式将其识别为敏感数据,并管理围绕该数据的控制。在大数据世界中,虽然数据可以分布,但物理隔离通常不存在,必须使用其他方法来识别哪些数据是敏感的,谁对哪些数据负责。治理流程需要维护这些信息。
      
通过组合以前没有相关的数据来创造价值
       此外,数据共享通常是一个尚未正式化的过程。数据湖的目标是创建一个可以轻松利用所有数据的环境。这意味着拥有数据的组织的不同部分必须同意提供它,并以受控方式提供它。此外,现在可以与组织的许多部分共享数据,通常不需要他们付出太多努力。这意味着需要明确协商数据共享要求,以便数据的所有用户都能理解他们应该和不应该对数据做什么。此外,语义不匹配的范围也会增加,因为组织的不同部分将使用具有不同含义的相同术语。
      
更多样化和灵活的流程
       大数据不是基于ETL的预先定义和政策决定,而是暗示自下而上的“按需要做”治理方法。这反过来意味着该治理的自动化系统需要高度灵活和协作,并具有明确的运营模式。该运营模型考虑了数据的配置,使用,更改和退役的整个生命周期以及质量和可靠性,需要自动化以处理不断增加的数据量和种类。
      
多样性的增加使自动化成为一项要求
       数量和种类的不断增加需要自动化。手动流程无法跟上数据变化的次数以及几乎每天都带入湖中的新数据。手动流程处理现有的大量数据太慢而且繁琐。将管理信息保存在桌面工具,电子表格甚至文档共享站点上太慢而且繁琐,并且不会使业务用户即时访问他们所需的数据。有必要使用应用程序自动执行数据治理,就像使用特定应用程序为此目的自动执行任何其他业务活动一样。Collibra数据治理中心旨在成为您的大数据环境的应用程序,以及您的所有数据治理需求。
      
该数据是操作必需品并且一直在使用
       最终,这些数据是组织的生命线。托管和处理它的基础架构和平台必须能够跟上所有更改,以及使用和处理数据的请求量。如果没有这种可靠性和安全性,组织将无法利用其数据,也无法快速获取新的数据和洞察力,从而具有竞争力。数据已成为商业竞争和产品和服务质量的关键水平。
大数据治理成功
       最后,这些流程旨在使您的组织更加灵活和有能力。您可以在需要时使用您的数据,您可以添加它,您可以管理它,它就在那里。拥有大数据和治理功能的最佳组织发现有许多具体的好处。他们可以比以往更有效地查找数据,描述数据,使用数据并进行管理。
      
保持可用性
       在管理大数据时,您希望最大化正常运行时间,同时最大限度地减少确保正常运行时间的工作量 您的基础大数据平台必须实现这些目标。
      
保护敏感数据
       需要广泛的重要功能来满足您的数据安全要求。您的数据平台必须提供以数据为中心的控件,以确保安全的环境。
      
快速访问您的数据
       组织花费高达75%的时间来创建从事数据的分析和争吵活动。数据易于搜索,机器学习人工智能有助于推荐合适的数据。高级可视化可以显示任何类型的关系和数据上下文,因此数据科学家和BI专业人员可以轻松快速地获取正确的数据。而且因为数据提取治理可以确保您知道数据湖中究竟是什么。
      
快速安全地更改数据
       确保您的查询返回正确的数据,以便可以信任基于该数据的分析指标。数据科学家,所有者和用户可以确保使用正确的数据值,参考和结果。使用非结构化数据需要生产者,消费者和数据科学家之间的有效协调,以确保所有各方都了解可能影响结果的变化。由于对数据的更改经常发生并且经常在发现该数据的新用途时不断发生,因此这是一项关键功能。这种通信还减少了耗时的错误分析和解决方案; 部分原因是分析中几乎没有莫名其妙的错误,部分原因是报告问题和解决问题的过程是自动化的。这增加了对分析的信任,增加了它们的使用,并促进了自助服务。
      
了解您的数据
       数据治理可以让您了解自己拥有的内容,并以多种不同的方式查找知识。大数据环境不仅仅是表格,文件和流。组织使用许多不同类型的资产来提供高性能,预测分析和独特见解。这些包括分析模型,地图/减少作业,查询,可视化,报告和使用数据的任何人工制品。

最近看过此主题的会员

缱绻

esen_3T9B0IW07RG3

Xeo

esen_3FS51OLQ880U

kyle.lin

399A8B5IQH0A

pengpuxin2019

0个回答

只看楼主

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

400咨询:400-0011-866

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号