下一代数据分析平台的七个特性

1911
1

请摘星星给莪 初学数据Lv2

发表于2018-11-12 18:05

楼主
本帖最后由 请摘星星给莪 于 2018-11-12 18:05 编辑

       目前出现的数据分析平台是基于云的、协作的和多实体的。他们聚合来自内部和外部的数据,自动提取和转换,与预测和机器学习算法无缝整合,并实时向业务用户提供实时信息。

让我们一步一步地来解释:
       基于云的——很明显,现在新的分析解决方案必须在云中构建。但即使是基于云的实现的定义也在发生变化。考虑到灵活性、可伸缩性和较低的所有权成本,将服务器迁移到基于云的主机环境是很好的第一步。然而,最终的愿景是使用像Amazon Lambda或MS-Azure Functions这样的按需计算服务来实现无服务器计算,以简化基础设施,并将精力集中在数据质量和分析应用程序开发上。

       协作——历史上,分析是在筒仓中完成的,不同的团队构建符合特定需求的专门的数据存储。数据仓库是数据的集中来源,但是真正的分析和洞察发生在台式机上,人工组合多个源。下一代平台允许多个用户通过API或数据虚拟化来发布数据源、算法和洞察。

       多实体-- 分析平台越来越多地被组织的多个部门甚至是跨组织使用。平台不仅仅用于共享数据;洞察力、可视化和算法可以跨组织边界共享。这就为安全性和身份验证以及数据屏蔽提出了额外的需求

       多源 --许多组织专注于内部数据源进行分析(事务、财务、CRM等),但往往忽视了公共和第三方数据源(如主要研究、设备或社交媒体提供信息)的不断增加,这些数据源可用来增强分析解决方案。这种将来自多个数据源的数据混合的能力是至关重要的,但是它需要对数据输入有复杂的管理方法,包括许可和更新。否则,外部数据源可能会过时或不准确,因此不再能混用。

       自动化--为确保分析团队的效率,工作流自动化正在迅速成为一种必需品。随着数据融合和更新变得更加复杂,自动化数据收集、处理和跟踪也变得更重要。组织开始把主要研究平台,如调查工具,与工作流自动化和可视化组件结合,以简化工作,提高分析的质量。

       智能--从多个来源获得高质量的数据仅仅是分析组织真正目的的先决条件:从数据中获得高价值的见解。它越来越多地应用机器学习和人工智能处理结构化和非结构化数据源。前沿组织正在将这些工具应用于以前无法访问的数据,例如客户服务呼叫记录,并从以前未开发的资源中获取关于客户接触的洞察。预测分析不再是象牙塔里的尝试,而是已被日常应用于大多数业务功能,从“领先一代”到“后台自动化”,再到需求预测和招聘。

       实时——互联网永远在线的特性驱使我们来到一个即时满足的世界。这也是分析解决方案的例子;用“上个月的数据”或“去年的结果”作为分析的来源已经不够了。因此,数据收集和分析的批处理方法将被随需应变的数据更新所取代。这给平台的计算需求带来了压力,因为它需要实时处理不断增加的数据量。它还会对数据可用性施加压力,确保最近的数据源被用于分析。管理数据流的方法,如Kafka或Flume,正在兴起,以帮助组织处理大量的实时数据分析。

       那么,面对这个美丽新世界,面对的挑战是什么?希望利用下一代分析平台的公司应该在研究平台时考虑这些挑战。

       安全性:在一个多用户、跨组织的世界中,安全性和访问管理变得比以往任何时候都重要。实现基于云的单点登录技术可以简化跨平台和工具的导航,但是对于数据共享的集中式方法仍将是个挑战。区块链应用程序的新兴领域,通过分布式记账方式来确保数据共享,可能会带来一些缓解,但在这些应用程序变得足够稳健之前,还有很多工作要做,以便标准的IT组织能够实施和管理

       遗留系统:从大型投资数据仓库和遗留报表工具中迁移可能会令人畏惧。对于那些使用这些工具的团队来说,将会有一些阻力,并且可能会有对遗留平台的不继续使用的惩罚。但是,可以通过模块化构建新的分析解决方案,并使用中间件与遗留工具集成。

      非结构化数据管理:传统的数据仓库主要集中在结构化数据上。然而,现在大多数分析的洞察都依赖于将非结构化和结构化的数据几乎实时地混合数据中。这需要一种灵活的方法,并对组织进行培训,以检索和分析有用的方法获取和标记非结构化数据。

      弹性:随着我们转向实时分析,算法和数据处理常规需要变得更有弹性:可伸缩、容错性,并且能够自动处理数据的缺口和错误,这样洞察力仍然可以在不完全数据的情况下产生。这可能需要一种完全不同的算法开发方法,这种方法更依赖于概率数据的增加,而不是每次都假设有完美的数据可用。

      工具的演变:分析领域正爆炸性地出现新的工具和方法,这些工具和方法都来自于大型商业玩家和开源社区。多年来依赖于SAS的公司,现在正在培训他们的分析师使用R和Python,以跟上学术界最新的图书馆和软件包。在GPU设计的推动下,深度学习算法正在彻底改变分析解决方案的开发方式,但需要专业技能,而这些技能在技术巨头之外很难找到。构建一个面向未来的分析平台的挑战在于使用模块化的方法,因此当不同的组件发生变化时,它们可以很快被下一代工具所取代。

       我们正处于分析的黄金时代,但要实现正确平台以利用最新技术和数据科学发展是一个移动的目标。灵活的、有创意的组织能够想象并部署新的解决问题的方法进行分析,这样的组织将会在竞争中保持领先地位。

本文来源:中国商业智能网

最近看过此主题的会员

esensoft

a1ex

admin

辰哥

冰山控

程序猿

1个回答

只看楼主

冰山控 初学数据Lv2

发表于2018-11-15 16:36

只看该作者

取消 关注该作者的回复

沙发

分析的很好,赞一个

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

400咨询:400-0011-866

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号