商业智能与大数据结合的一点感想

2112
2

疯人院的歌颂者 初学数据Lv2

发表于2019-1-9 11:44

楼主
                引言

        商业智能的概念兴起于上世纪90年代,经过近20年的发展,已经得到广泛的认可和应用。越来越多的中大型企业建设了自己了商业智能系统以提升商业价值,甚至小微型企业也有考虑使用商业智能工具来辅助决策。


        近3-4年以来,随着数字设备性能的飞速发展,信息爆炸的大数据时代降临。传统的商业智能模式、系统应该如何发展,以适应大数据带来的变革并从中受益?笔者结合自身的工作经验,提出了对此问题的一点感想,由于视野和水平均十分有限,难免有疏漏和不足之处,恳请各位同事指正!

1传统商业智能模式1.1商业智能的含义

商业智能(或称商务智能,BusinessIntelligence,BI)的概念最早由加特纳集团(Gartner Group)的Howard Dresner于1996年提出。当时定义为:“商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定”。


随着商业智能领域的发展,其概念得到了不断充实。如Tom Soukup 和 Ian Davidson在《Visual Data Mining: Techniques and Tools for Data Visualization and Mining》一书中指出:“商业智能解决方案将业务数据转换成明确的、基于事实的、能够执行的信息,并且使得业务人员能够发现客户趋势,创建客户忠诚度,增强与供应商的关系,减少金融风险,以及揭示新的销售商机”。


今天,商业智能的含义包含了信息系统层面、数据分析层面、知识发现层面与企业战略层面的各种内容,时下流行的供应链管理(SCM)、客户关系管理(CRM)、企业资源计划(ERP)概念均可视为商业智能的一部分。

1.2商业智能系统的组成部分

        一般认为,DW、OLAP、DM是所有商业智能系统均具备的组成部分:


        数据仓库(DataWarehouse,DW)是企业所有类型的有价值数据的集合。BI系统从企业各种平台和流程中提取有用数据并进行清理,然后经抽取、转换、装载(即ETL)过程,将数据储存在数据仓库中,从而得到企业数据的一个全局视图。由于数据仓库中的数据通常为各种明细数据,缺少汇总和层次关系,因此很少直接用于分析和决策。


        联机分析处理(On-LineAnalytical Processing,OLAP)用于处理联机数据访问和分析需求。BI系统需要向决策人员提供高效、直观的数据查询和展现,以便支持决策的制定,于是OLAP概念产生了,它将原始的、难以使用的数据转化为能够被理解的、多维的信息,并对多维信息提供钻取、切片、切块等操作,从而满足用户在各种维度上的数据查询需求。


        数据挖掘(DataMining,DM)指从海量数据中通过某种算法找出隐藏信息的技术。通常包含关联分析、聚类分析、异常分析等功能。数据挖掘的价值在于,它可利用企业数据进行归纳推理,挖掘出潜在的模式,帮助决策人员制定决策和调整战略。数据挖掘的存在也是BI系统区别于传统报表系统的最主要区别。


        在传统的技术手段下,BI系统的三大组成部分都可利用关系型数据库(RDBMS)实现,许多关系型数据库的生产商,如Oracle、IBM、微软,同时也是商业智能解决方案的提供商,可见两者结合之紧密。近年来,随着大数据时代的来临,非关系型数据库(NoSQL)的优势开始凸显。许多IT企业,尤其是互联网行业,已经迈入了SQL和NoSQL并存的时代,非关系型数据库如HBase用于海量数据的清洗和处理,关系型数据库如Oracle用于面向用户的多维查询和展现。我们的数据分析平台也使用了这种技术模式。但无论使用何种技术,商业智能的三大组成部分都对应着以下三大主要功能。


1.3商业智能系统的主要功能

        数据管理功能:从多个数据源获取数据、处理多种格式的数据、存储海量数据的能力。为辅助这一功能,一些BI系统具备元数据管理模块,即对描述数据的数据也进行管理。随着业务量级的提升、数据口径的日益复杂,不远的将来我们也会有提升数据管理能力的需要,而元数据管理就是最好的解决方案。


        数据分析功能:传统BI系统具备即席查询、报表生成、数据可视化等数据分析功能。而大数据时代来临的意义在于,数据的鸿沟正在逐步消除,不仅企业决策人员能更加方便灵活地操作数据,普通用户也有获取数据的需求,企业满足用户这方面的需求,让用户分析自己、管理自己,对双方都会带来巨大的价值。新浪微博的数据分析插件、淘宝的数据魔方等都是正面的成功范例。不幸的是,仍有一些古董级的企业逆势而为,力图加高数据壁垒,让用户对自己的消费情况查不清、问不明,这只会加速用户流失。笔者建议这些企业尽早转变陈腐的观念,营造透明开放的数据环境,只有拥抱变革,才不会遭受变革。


        知识发现功能:将数据中隐含的、潜在有用的而人们又感兴趣的部分固化下来形成知识的功能。提取的知识通常表现为概念、规则、规律、模式等。笔者认为,知识发现主要解决who、where、what的问题,即客户是谁、客户在哪里、客户想要什么。在大数据环境下,人们甚至可以发现一些难以想象的销售模式,如沃尔玛“啤酒与尿布”的经典案例。对我们公司来说,这块能力急需加强。公司领导层多次提到“对图书和用户都不了解”,是一个明确的缺乏知识发现能力的信号。

2大数据的变革2.1大数据时代

        大数据,即信息爆炸时代产生的海量数据,这一概念2009年被提及,2012年开始成为热潮,至今几乎已经家喻户晓。大数据的典型特征可归纳为4个V,即数据量大、类型繁多、价值密度低、速度快。传统的技术方案无法高效处理4个V特征的数据,因此云计算技术成为大数据时代的首选技术。但大数据又不等同于云计算,除了技术变革外,大数据更是一场思想上的变革,它为我们提供了一种全新的看待世界的方法。


2.2大数据带来的变革

        1、使用多种数据类型综合决策。以零售业为例,传统的线下销售模式中,企业的信息化系统中保存的数据通常只有订单数据,企业也只关心订单的状况和由此生成的财务报表。顾客的人身特征、询价过程、物流配送等等信息都被丢弃了。而线上销售模式中,订单只是数据的一小部分,对企业更有价值的反而是用户浏览过程、搜索、对比、收藏、询价、物流、评价这些被传统行业遗弃的数据,甚至很多电商网站费尽心机爬取用户的其他网页访问、位置、通讯录等数据。姑且不论收集这些数据是否合法,至少线上销售能给客户带来更精准的推荐和更个性化的体验,可以说电商已经靠着数据革了线下销售的命。


        2、不再探寻因果,而探寻关联。传统行业喜欢使用因果论来指导经营,如“买了篮球——推荐篮球鞋”、“因为淡季——所以促销”等。类似的方案需要对行业本身具备了解,但频繁使用又会使经营模式趋于雷同。在大数据环境下,我们需要探究的是关联而非因果。如沃尔玛的“啤酒和尿布”故事,便是沃尔玛的数据分析人员找到了两者的强关联而提出的销售方案。数据分析人员无需探究深层次的原因是妻子让丈夫带尿布,还是丈夫让妻子带啤酒,这根本无关紧要。又如,谷歌的数据科学家通过对搜索词汇的建模,预测什么地区将会爆发流感,从而对美国的防疫事业做出了巨大的贡献。这些数据科学家甚至不知道流感病毒为何物,但这丝毫不影响他们从数据的关联中发掘出重大价值。


        3、从异常数据和脏数据中淘金。传统的数据仓库构造过程中,异常数据、脏数据需要在ETL过程中予以剔除,否则将会造成数据入库失败等各种问题。然而在大数据环境下,异常数据却可能有其价值。笔者在之前的工作中,发现每天8点和20点均有大量客户端访问错单,这些记录均被ETL清洗了。进一步研究发现这些错单均为调用同一个接口导致的,再进一步核查业务代码,发现安卓客户端在设计时为跟踪沉默客户端用户,每天8点和20点两个时段客户端会向服务器发送握手消息,当客户端保有量增大时,握手消息使服务器不堪重负,最终产生错单。之后的客户端设计调整了代码,将握手机制分散至全天执行,减少了服务器负荷,避免根据错误的压力“峰值”对服务器扩容。又比如,美国一家信用机构发现,有10%的“已死亡”客户仍在正常偿还贷款,保留这些异常数据而非做销户处理,会给企业带来额外的利润。


        当然,大数据带来的变革远不止以上三点,它带来的既是机遇,也是挑战。如何将大数据理念与传统的BI相结合,以产生新的功能点,是我们迫切需要思考的问题。

3商业智能与大数据结合3.1结合产生的一些新特性

        1、快速分析。面对猛增的数据量和分析人员越来越多的即席查询需求,BI需要具备快速分析特性。我们有两种手段支持这一特性。一是维度冗余,即对统计级数据做不同级别的汇总,各级别间允许存在交叉,如PV数据可按地市汇总、按地市+用户类型汇总、按地市+用户类型+业务线汇总,三种维度的数据是冗余的,即这是一种以空间换时间的技术。缺点是,新增一个维度即需要新增一张表,当数据量大时还要做分库、加硬件。二是内存计算,一些频繁被查询的数据可放在内存中,同时辅助以内存文件系统加Storm的模式,可支持秒级甚至毫秒级的查询。缺点是,这种技术只能支持较小的数据量。


        2、计算分层。按数据量和数据延时要求的不同,我们可将计算能力划分为三层,以不同的技术手段实现。实时性最高、数据量最小的情况使用流式计算层,代表技术为Storm(http://storm.incubator.apache.org/),它可在每一块数据到达时触发计算,适合实时的标量汇总,如商品的实时销售额。实时性较高、数据量适中的情况使用块计算层,可用传统的Oracle完成,在Oracle上应用OLAP可满足大部分日常报表的需求。实时性最低、数据量最大的情况使用批量计算层,代表技术为Hadoop,如每日的底层数据处理、长周期的数据累计等。


        3、服务开放。类似SaaS(软件即服务)理念,将数据处理和数据分析能力包装为服务,允许有一定经验的数据科学家直接调用。面向服务的架构还有助于前后台的解耦,当前台需要新增指标或展现时,后台只需对接口做少量改动,或完全不用改动。


3.2今后发展的想法

        结合公司发展的实际情况,笔者对本公司的商业智能系统发展有以下思考:


        1、数据处理服务开放。将Hadoop(今后可能有其他平台)的能力包装后开放,便于公司内其他数据分析人员使用。这部分已经着手实现,近期第一版的智能取数系统就会上线,后续还会封装其他服务。


        2、建立数据管理功能。通过数据模糊化、建立元数据管理平台等手段,对数据进行管控,包括权限管理、敏感数据管理、数据源管理、数据口径管理等。这部分已有一些设想,但限于资源还未进入实施阶段。


        3、加强数据挖掘能力,提升数据价值。目前公司的数据应用水平还停留在报表层面,数据很难直接带来价值。为提升数据对业务的支持度,需要挖掘数据中隐含的潜在模式,提炼出用户知识库、图书知识库、渠道知识库等,进而为实际运营提供方案。这部分目前没有资源实施,如果要做需要引进1-2名数据挖掘人才。


        4、优化数据展现。对大部分非技术人员来说,图表才能提供最直观的感受。由于目前只有报表形式的数据,数据可视化只有表格、折线图、柱状图等几种方式。今后当数据挖掘能力成熟时,可依靠数据挖掘成果增加热力图、漏斗图、转化流失图、聚类图等多种展现形式,便于非技术人员使用。


            

最近看过此主题的会员

零伍

mengchenlong

KissSoo

遗世独立

米饭真香

jmy123

wut

养蚯蚓吃沙漠

小由菜

13709021940

黄斌

简单点2018

admin

2个回答

只看楼主

zhangyadong 初学数据Lv2

发表于2019-1-17 09:21

只看该作者

取消 关注该作者的回复

沙发

一笑伊人 小试身手Lv3

发表于2019-1-17 09:25

只看该作者

取消 关注该作者的回复

板凳

zhangyadong 发表于 2019-1-17 09:21
13.gif

哈哈

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

渠道咨询电话:137-0120-6790

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号