-
宋宋 数据领袖Lv6
发表于2019-6-30 22:41
楼主
数据分析正迅速成为IT的生命线。大数据、机器学习、深度学习、数据科学——等用于分析大量数据的技术和技巧的范围正在快速扩展。要深入了解客户行为、系统性能和新的收入机会,您的数据分析战略将从最新的数据分析趋势中获益匪浅。
以下是正在升温的数据分析技术、技巧和策略,以及正在开始冷却的、曾经火热的数据分析趋势。从业务分析师到数据科学家,每个与数据打交道的人都受到了数据分析革命的影响。如果您的组织希望利用数据分析获得可操作的情报,则以下数据分析趋势的热点索引应是您的指南。
一、十大热点
1、自助BI
对象:BI/BA专业人员、经理
借助自助服务BI工具,如Tableau、Qlik Sense、WBI和DOMO,管理人员可以按需以图形形式获取当前业务信息。虽然在一开始和添加数据源时可能需要由IT进行一定的设置,但清理数据和创建分析的大部分工作可以由业务分析人员完成,并且分析可以在打开最新数据时自动更新。
然后,管理人员可以通过图形与分析进行交互,以确定需要解决的问题。在一个双生成的关于销售数字的仪表板或”故事”中,这可能意味着深入挖掘,以发现表现不佳的商店、销售人员和产品,或者发现同比同店比较的趋势。这些发现可能反过来指导未来的库存水平,产品销售和促销的决定,甚至在服务不足的地区建立额外的商店。
and了解当今最热门的数据和分析趋势以及将带来回报的大数据认证。.通过注册我们的CIO时事通讯获得最新见解。
2、移动仪表板
对象:BI/BA专业人员、经理、开发人员
数据仓库和商业智能是商业成功的关键。参加这个在线课程,掌握基础知识。
在一个管理者很少坐在办公桌前的世界里,管理工具需要呈现移动友好的仪表板,才能变得有用和及时。大多数自助式BI工具已经具有此功能,但并不是每个关键业务指标都必须经过BI工具。
例如,一个制造工厂可能有一个专门的QA系统来监控所有的生产线。所有工厂经理需要知道是否有任何线路已漂移的容忍在几分钟内的事件。这很容易通过一个每分钟查询QA数据库、更新和显示休哈特控制图的应用程序来完成,当一条线超出规格时,可以选择发出警报。
3、R语言
对象:拥有强大统计数据的数据科学家
数据科学家可以选择使用统计方法来分析数据。其中最方便和强大的方法是使用免费的r编程语言。R是创建可重现的高质量分析的最佳方法之一,因为与电子表格不同,R脚本可以轻松地进行审核和重新运行。R语言及其软件包库提供了广泛的统计技术,数据处理和绘图。以至于如果存在一种技术,它可能在R包中实现。R对机器学习的支持几乎同样强大,尽管它可能不是深度神经网络的首选。这需要比R当前提供的性能更高的计算。
4、深度神经网络
对象:数据科学家
一些最强大的深度学习算法是深度神经网络(DNN),它是由多层(因此称为”深度”)交替线性和非线性处理单元构成的神经网络,使用大规模算法和海量训练数据进行训练。一个深度神经网络可能有10到20个隐含层,而一个典型的神经网络可能只有几层。Error! Hyperlink reference not valid.
网络中的层数越多,它能够识别的特征就越多。不幸的是,网络中的层数越多,计算的时间就越长,训练也就越困难。创建深度神经网络的软件包包括Caffe、Microsoft Cognitive Toolkit、MxNet、Neon、TensorFlow、Theano和Torch。
5、TensorFlow
对象:数据科学家
TensorFlow是谷歌的开源机器学习和神经网络库,它支撑着谷歌大部分(如果不是全部)的应用机器学习服务。翻译、地图和谷歌应用程序都使用运行在智能手机上的基于TensorFlow的神经网络。TensorFlow模型是GoogleCloud自然语言、语音、翻译和视觉的应用机器学习API的基础。Error! Hyperlink reference not valid.
数据科学家可以使用TensorFlow,一旦他们可以克服学习框架的相当大的障碍。TensorFlow拥有高度的灵活性、真正的可移植性、连接研究和生产的能力、变量的自动区分,以及通过优先处理GPU而不是CPU来最大限度地提高性能的能力。请您的数据科学家参考我的教程,或者让他们研究一下简化的Tensor2Tensor库。
6、MXNet
对象:数据科学家
MXNet(发音为”mix-net”)是一种类似于TensorFlow的深度学习框架,它缺少TensorFlow所具备的可视化调试功能,但为张量计算提供了TensorFlow所缺少的命令式语言。MXNet平台动态地并行化了符号操作和命令操作,在其调度器上的图形优化层使符号执行更快,内存更有效。
MXNet目前支持用Python、R、Scala、Julia和C++构建和训练模型。经过训练的MXNet模型也可以在MATLAB和JavaScript中用于预测。无论您使用什么语言来构建模型,MXNet都会调用一个优化的C++后端引擎。
7、Microsoft Cognitive Toolkit 2.0
对象:数据科学家:
Microsoft Cognitive Toolkit(也称为CNTK2.0)是一个统一的深度学习工具包,它通过有向图将神经网络描述为一系列计算步骤。它与TensorFlow和MxNet有许多相似之处,尽管微软声称CNTK比TensorFlow更快,特别是对于递归网络,具有更容易在应用程序中集成的推理支持,并且具有高效的内置数据读取器,也支持分布式学习。CognitiveError! Hyperlink reference not valid.
目前在模型画廊里有大约60个样品,包括过去十年中赢得竞赛的大多数模型。认知工具包是微软Cortana、Skype Live Translation、Bing和一些Xbox功能的底层技术。
8、Scikit-Learn
对象:数据科学家
SciKit是基于Python的科学工具箱,围绕科学计算库SciPy构建。Scikit-Learn是一个专注于机器学习的开源项目,该项目非常小心地避免范围蔓延和跳到未经验证的算法上。另一方面,它有相当不错的实体算法选择,并且它使用Cython(Python到C的编译器)来实现需要快速的函数,比如内部循环。
Scikit-Learn没有涉及的领域包括深度学习、强化学习、图形模型和序列预测。它被定义为针对Python的,所以它没有针对其他语言的API。Scikit-Learn不支持PyPy(快速实时编译Python实现),也不支持GPU加速,除了神经网络,Scikit-Learn几乎不需要GPU加速。
在我测试过的所有机器学习框架中,Scikit-Learn在开发简易性方面得分最高。算法的工作方式与广告和文档一致,API一致且设计良好,数据结构之间很少存在”阻抗不匹配”。在这个库中,特性得到了充分的充实,bug得到了彻底的清除,在这里工作是一件很愉快的事情。
9、Jupyter Notebooks
对象:数据科学家
Jupyter Notebook最初名为IPython Notebook,是一个开源Web应用程序,它允许数据科学家创建和共享包含实时代码、公式、可视化和解释文本的文档。用途包括数据清理和转换、数值模拟、统计建模、机器学习等。
Jupyter笔记本已经成为许多数据科学家和ML研究人员的首选开发环境。它们是Azure、Databricks和其他在线服务(包括机器学习和大数据)上的标准组件,您也可以在本地运行它们。”Jupyter”是一个松散的首字母缩略词,意思是Julia、Python和R,这是三种流行的数据分析语言,也是Notebook内核的第一个目标,但是现在有大约80种语言的Jupyter内核。
10、云存储和分析
对象:BI/BA专业人士、数据科学家
高效分析的原则之一是”在数据所在的位置进行计算”。如果您不遵循或不能遵循这一规则,当数据在本地网络上移动时,您的分析可能会有很大的延迟,而当数据在Internet上移动时,您的分析可能会有更大的延迟。例如,这就是为什么Microsoft最近向SQL Server添加了R支持。
随着公司生成的数据量呈指数级增长,数据中心的容量可能无法满足需要,您将不得不添加云存储。一旦你的数据在云中,你的分析也应该在云中。最终,大多数新项目将在云中实施,而现有项目将迁移到云中,从而将您的公司从资本支出领域转移到运营支出领域。
二、五大趋冷的趋势
1、Hadoop
对象:数据科学家
Hadoop曾经似乎是”我应该如何存储和处理真正的大数据?”这个问题的答案,现在似乎更像是”在系统变得无法维护之前,你可以在系统中塞进多少个活动部件?”我应该如何存储和处理真正的大数据?
ApacheHadoop项目包括四个模块:Hadoop通用(Utilities)、Hadoop分布式文件系统(HDFS)、Hadoop YARN(Scheduler)。和Hadoop MapReduce(并行处理)。除了这些之外,人们还经常使用一个或多个相关的项目:Ambari(集群管理)、Avro(数据序列化)。、Cassandra(多主数据库)、Chukwa(数据收集)、HBase(分布式数据库)、Hive(数据仓库)、Mahout(ML和数据挖掘)、Pig(执行框架)、Spark(计算引擎)、Tez(旨在取代MapReduce的数据流编程框架),和动物园管理员(协调服务)
如果这还不够复杂,可以考虑Apache Storm(流处理)和Kafka(消息传输)。现在考虑一下供应商提供的附加价值:Amazon(Elastic Map Reduce)、Cloudera、Hortonworks、Microsoft(HDInsight)、MapR和SAP Altiscale。
2、物联网
对象:BI/BA专业人士、数据科学家
物联网(IoT)可能是有史以来最被大肆宣传的一套技术。这也可能是有史以来互联网安全发生的最糟糕的事情。
物联网已经被吹捧用于智能家居、可穿戴设备、智能城市、智能电网、工业互联网、互联汽车、互联健康、智能零售、农业等一系列场景。如果实现是安全的,那么这些应用程序中的许多都是有意义的,但总的来说,这并没有发生。
事实上,制造商经常犯根本性的设计错误。在某些情况下,智能设备只有在连接到互联网并能到达制造商的服务器时才能工作。当制造商终止产品支持时,这就成为一个重要的故障点。就像索尼Dash和Early Nest温度计那样。将连接到Internet的远程服务器包括在控制环路中也会在控制环路中引入一个显著且可变的滞后,降低不稳定性。
更糟糕的是,在匆忙将自己的”东西”连接到互联网的过程中,制造商暴露了被黑客利用的漏洞。汽车被远程接管,家庭路由器被拖入僵尸网络进行DDoS攻击,公共电网在某些地区瘫痪……
怎样才能使物联网设备安全?为什么厂家不重视?
在安全问题得到解决之前,物联网的数据分析承诺将是风险大于回报。
3、批量分析
对象:BI/BA专业人士、数据科学家
在一夜之间运行批处理作业来分析数据,这就是我们在20世纪70年代所做的事情,当时数据保存在9轨磁带上,”大型机”在第三班时切换到批处理模式。在2017年,没有充分的理由满足于过去一天的数据。
在某些情况下,一个或多个遗留系统(在某些情况下可以追溯到20世纪60年代)只能在夜间运行分析或备份数据,而不能以其他方式使用。在其他情况下,没有运行批处理分析的技术原因,但”这就是我们一直在做的事情”。
你比那更好,你的管理层应该得到最新的数据分析。
4、Caffe
对象:数据科学家
曾经很有希望的Caffe深度学习项目,原本是一个强大的图像分类框架,似乎正在停滞。虽然该框架具有强大的图像识别卷积网络,对CUDA GPU的良好支持,以及不错的可移植性,但其模型往往需要过大的GPU内存,该软件有多年的bug尚未修复,其文档最多也是有问题的。
经过一年多的努力,Caffe终于在2017年4月达到了1.0版本的标准。然而,截至2017年7月,它有超过500份公开发行。局外人可能会有这样的印象:当深度学习社区转向TensorFlow、CNTK和MXNet时,该项目陷入了停滞。
5、每月BI报告
对象:BI/BA专业人士、数据科学家
在自助式商业智能变得流行之前,BI是IT的一部分。经理们描述了他们认为他们想要看到的东西,业务分析师将其转化为规范,BI专家创建报告以满足规范要求—最终,考虑到他们的积压工作。一旦定义了报告,它就按月运行,基本上是永久运行。所有可能的报告都打印出来,在每月的第一天放入管理层的收件箱,以便在会议上浏览、讨论。最终要么采取行动要么被忽视。
有时,行动将是定义一个新的报告,以回答现有报告提出的问题。整个周期将重新开始,一两个月后,新的报告将被添加到每月打印输出。
唉,想要敏捷的企业无法在几个月内对环境和市场变化做出反应:从提出问题到得到答案之间的时间应该以秒或分钟来衡量,而不是几周或几个月。
来源互联网
以下是正在升温的数据分析技术、技巧和策略,以及正在开始冷却的、曾经火热的数据分析趋势。从业务分析师到数据科学家,每个与数据打交道的人都受到了数据分析革命的影响。如果您的组织希望利用数据分析获得可操作的情报,则以下数据分析趋势的热点索引应是您的指南。
一、十大热点
1、自助BI
对象:BI/BA专业人员、经理
借助自助服务BI工具,如Tableau、Qlik Sense、WBI和DOMO,管理人员可以按需以图形形式获取当前业务信息。虽然在一开始和添加数据源时可能需要由IT进行一定的设置,但清理数据和创建分析的大部分工作可以由业务分析人员完成,并且分析可以在打开最新数据时自动更新。
然后,管理人员可以通过图形与分析进行交互,以确定需要解决的问题。在一个双生成的关于销售数字的仪表板或”故事”中,这可能意味着深入挖掘,以发现表现不佳的商店、销售人员和产品,或者发现同比同店比较的趋势。这些发现可能反过来指导未来的库存水平,产品销售和促销的决定,甚至在服务不足的地区建立额外的商店。
and了解当今最热门的数据和分析趋势以及将带来回报的大数据认证。.通过注册我们的CIO时事通讯获得最新见解。
2、移动仪表板
对象:BI/BA专业人员、经理、开发人员
数据仓库和商业智能是商业成功的关键。参加这个在线课程,掌握基础知识。
在一个管理者很少坐在办公桌前的世界里,管理工具需要呈现移动友好的仪表板,才能变得有用和及时。大多数自助式BI工具已经具有此功能,但并不是每个关键业务指标都必须经过BI工具。
例如,一个制造工厂可能有一个专门的QA系统来监控所有的生产线。所有工厂经理需要知道是否有任何线路已漂移的容忍在几分钟内的事件。这很容易通过一个每分钟查询QA数据库、更新和显示休哈特控制图的应用程序来完成,当一条线超出规格时,可以选择发出警报。
3、R语言
对象:拥有强大统计数据的数据科学家
数据科学家可以选择使用统计方法来分析数据。其中最方便和强大的方法是使用免费的r编程语言。R是创建可重现的高质量分析的最佳方法之一,因为与电子表格不同,R脚本可以轻松地进行审核和重新运行。R语言及其软件包库提供了广泛的统计技术,数据处理和绘图。以至于如果存在一种技术,它可能在R包中实现。R对机器学习的支持几乎同样强大,尽管它可能不是深度神经网络的首选。这需要比R当前提供的性能更高的计算。
4、深度神经网络
对象:数据科学家
一些最强大的深度学习算法是深度神经网络(DNN),它是由多层(因此称为”深度”)交替线性和非线性处理单元构成的神经网络,使用大规模算法和海量训练数据进行训练。一个深度神经网络可能有10到20个隐含层,而一个典型的神经网络可能只有几层。Error! Hyperlink reference not valid.
网络中的层数越多,它能够识别的特征就越多。不幸的是,网络中的层数越多,计算的时间就越长,训练也就越困难。创建深度神经网络的软件包包括Caffe、Microsoft Cognitive Toolkit、MxNet、Neon、TensorFlow、Theano和Torch。
5、TensorFlow
对象:数据科学家
TensorFlow是谷歌的开源机器学习和神经网络库,它支撑着谷歌大部分(如果不是全部)的应用机器学习服务。翻译、地图和谷歌应用程序都使用运行在智能手机上的基于TensorFlow的神经网络。TensorFlow模型是GoogleCloud自然语言、语音、翻译和视觉的应用机器学习API的基础。Error! Hyperlink reference not valid.
数据科学家可以使用TensorFlow,一旦他们可以克服学习框架的相当大的障碍。TensorFlow拥有高度的灵活性、真正的可移植性、连接研究和生产的能力、变量的自动区分,以及通过优先处理GPU而不是CPU来最大限度地提高性能的能力。请您的数据科学家参考我的教程,或者让他们研究一下简化的Tensor2Tensor库。
6、MXNet
对象:数据科学家
MXNet(发音为”mix-net”)是一种类似于TensorFlow的深度学习框架,它缺少TensorFlow所具备的可视化调试功能,但为张量计算提供了TensorFlow所缺少的命令式语言。MXNet平台动态地并行化了符号操作和命令操作,在其调度器上的图形优化层使符号执行更快,内存更有效。
MXNet目前支持用Python、R、Scala、Julia和C++构建和训练模型。经过训练的MXNet模型也可以在MATLAB和JavaScript中用于预测。无论您使用什么语言来构建模型,MXNet都会调用一个优化的C++后端引擎。
7、Microsoft Cognitive Toolkit 2.0
对象:数据科学家:
Microsoft Cognitive Toolkit(也称为CNTK2.0)是一个统一的深度学习工具包,它通过有向图将神经网络描述为一系列计算步骤。它与TensorFlow和MxNet有许多相似之处,尽管微软声称CNTK比TensorFlow更快,特别是对于递归网络,具有更容易在应用程序中集成的推理支持,并且具有高效的内置数据读取器,也支持分布式学习。CognitiveError! Hyperlink reference not valid.
目前在模型画廊里有大约60个样品,包括过去十年中赢得竞赛的大多数模型。认知工具包是微软Cortana、Skype Live Translation、Bing和一些Xbox功能的底层技术。
8、Scikit-Learn
对象:数据科学家
SciKit是基于Python的科学工具箱,围绕科学计算库SciPy构建。Scikit-Learn是一个专注于机器学习的开源项目,该项目非常小心地避免范围蔓延和跳到未经验证的算法上。另一方面,它有相当不错的实体算法选择,并且它使用Cython(Python到C的编译器)来实现需要快速的函数,比如内部循环。
Scikit-Learn没有涉及的领域包括深度学习、强化学习、图形模型和序列预测。它被定义为针对Python的,所以它没有针对其他语言的API。Scikit-Learn不支持PyPy(快速实时编译Python实现),也不支持GPU加速,除了神经网络,Scikit-Learn几乎不需要GPU加速。
在我测试过的所有机器学习框架中,Scikit-Learn在开发简易性方面得分最高。算法的工作方式与广告和文档一致,API一致且设计良好,数据结构之间很少存在”阻抗不匹配”。在这个库中,特性得到了充分的充实,bug得到了彻底的清除,在这里工作是一件很愉快的事情。
9、Jupyter Notebooks
对象:数据科学家
Jupyter Notebook最初名为IPython Notebook,是一个开源Web应用程序,它允许数据科学家创建和共享包含实时代码、公式、可视化和解释文本的文档。用途包括数据清理和转换、数值模拟、统计建模、机器学习等。
Jupyter笔记本已经成为许多数据科学家和ML研究人员的首选开发环境。它们是Azure、Databricks和其他在线服务(包括机器学习和大数据)上的标准组件,您也可以在本地运行它们。”Jupyter”是一个松散的首字母缩略词,意思是Julia、Python和R,这是三种流行的数据分析语言,也是Notebook内核的第一个目标,但是现在有大约80种语言的Jupyter内核。
10、云存储和分析
对象:BI/BA专业人士、数据科学家
高效分析的原则之一是”在数据所在的位置进行计算”。如果您不遵循或不能遵循这一规则,当数据在本地网络上移动时,您的分析可能会有很大的延迟,而当数据在Internet上移动时,您的分析可能会有更大的延迟。例如,这就是为什么Microsoft最近向SQL Server添加了R支持。
随着公司生成的数据量呈指数级增长,数据中心的容量可能无法满足需要,您将不得不添加云存储。一旦你的数据在云中,你的分析也应该在云中。最终,大多数新项目将在云中实施,而现有项目将迁移到云中,从而将您的公司从资本支出领域转移到运营支出领域。
二、五大趋冷的趋势
1、Hadoop
对象:数据科学家
Hadoop曾经似乎是”我应该如何存储和处理真正的大数据?”这个问题的答案,现在似乎更像是”在系统变得无法维护之前,你可以在系统中塞进多少个活动部件?”我应该如何存储和处理真正的大数据?
ApacheHadoop项目包括四个模块:Hadoop通用(Utilities)、Hadoop分布式文件系统(HDFS)、Hadoop YARN(Scheduler)。和Hadoop MapReduce(并行处理)。除了这些之外,人们还经常使用一个或多个相关的项目:Ambari(集群管理)、Avro(数据序列化)。、Cassandra(多主数据库)、Chukwa(数据收集)、HBase(分布式数据库)、Hive(数据仓库)、Mahout(ML和数据挖掘)、Pig(执行框架)、Spark(计算引擎)、Tez(旨在取代MapReduce的数据流编程框架),和动物园管理员(协调服务)
如果这还不够复杂,可以考虑Apache Storm(流处理)和Kafka(消息传输)。现在考虑一下供应商提供的附加价值:Amazon(Elastic Map Reduce)、Cloudera、Hortonworks、Microsoft(HDInsight)、MapR和SAP Altiscale。
2、物联网
对象:BI/BA专业人士、数据科学家
物联网(IoT)可能是有史以来最被大肆宣传的一套技术。这也可能是有史以来互联网安全发生的最糟糕的事情。
物联网已经被吹捧用于智能家居、可穿戴设备、智能城市、智能电网、工业互联网、互联汽车、互联健康、智能零售、农业等一系列场景。如果实现是安全的,那么这些应用程序中的许多都是有意义的,但总的来说,这并没有发生。
事实上,制造商经常犯根本性的设计错误。在某些情况下,智能设备只有在连接到互联网并能到达制造商的服务器时才能工作。当制造商终止产品支持时,这就成为一个重要的故障点。就像索尼Dash和Early Nest温度计那样。将连接到Internet的远程服务器包括在控制环路中也会在控制环路中引入一个显著且可变的滞后,降低不稳定性。
更糟糕的是,在匆忙将自己的”东西”连接到互联网的过程中,制造商暴露了被黑客利用的漏洞。汽车被远程接管,家庭路由器被拖入僵尸网络进行DDoS攻击,公共电网在某些地区瘫痪……
怎样才能使物联网设备安全?为什么厂家不重视?
在安全问题得到解决之前,物联网的数据分析承诺将是风险大于回报。
3、批量分析
对象:BI/BA专业人士、数据科学家
在一夜之间运行批处理作业来分析数据,这就是我们在20世纪70年代所做的事情,当时数据保存在9轨磁带上,”大型机”在第三班时切换到批处理模式。在2017年,没有充分的理由满足于过去一天的数据。
在某些情况下,一个或多个遗留系统(在某些情况下可以追溯到20世纪60年代)只能在夜间运行分析或备份数据,而不能以其他方式使用。在其他情况下,没有运行批处理分析的技术原因,但”这就是我们一直在做的事情”。
你比那更好,你的管理层应该得到最新的数据分析。
4、Caffe
对象:数据科学家
曾经很有希望的Caffe深度学习项目,原本是一个强大的图像分类框架,似乎正在停滞。虽然该框架具有强大的图像识别卷积网络,对CUDA GPU的良好支持,以及不错的可移植性,但其模型往往需要过大的GPU内存,该软件有多年的bug尚未修复,其文档最多也是有问题的。
经过一年多的努力,Caffe终于在2017年4月达到了1.0版本的标准。然而,截至2017年7月,它有超过500份公开发行。局外人可能会有这样的印象:当深度学习社区转向TensorFlow、CNTK和MXNet时,该项目陷入了停滞。
5、每月BI报告
对象:BI/BA专业人士、数据科学家
在自助式商业智能变得流行之前,BI是IT的一部分。经理们描述了他们认为他们想要看到的东西,业务分析师将其转化为规范,BI专家创建报告以满足规范要求—最终,考虑到他们的积压工作。一旦定义了报告,它就按月运行,基本上是永久运行。所有可能的报告都打印出来,在每月的第一天放入管理层的收件箱,以便在会议上浏览、讨论。最终要么采取行动要么被忽视。
有时,行动将是定义一个新的报告,以回答现有报告提出的问题。整个周期将重新开始,一两个月后,新的报告将被添加到每月打印输出。
唉,想要敏捷的企业无法在几个月内对环境和市场变化做出反应:从提出问题到得到答案之间的时间应该以秒或分钟来衡量,而不是几周或几个月。
来源互联网