拿什么来拯救你——大数据时效性

3793
1

一笑伊人 小试身手Lv3

发表于2018-11-26 09:34

楼主
本帖最后由 一笑伊人 于 2018-11-26 09:35 编辑

【摘要】我们在查询数据时,往往会注意到权威机构注明的数据采集截止日期。这样,依据数据得出的结论,也就有了保质期。但问题是,从数据采集到数据加工得出结论的这个时段,取决于计算系统的处理速度。

数据的时效性
关于数据的时效性,Marc Hamilton举了一个十分形像的例子:“每年去医院就诊人次是一个非常惊人的数字,但相应的医院所能承载的就医人数是非常有限的。如果某地突发大规模的流感,大量人群挤入医院就诊,可能就会让当地的医院承受巨大的压力,造成患者无法及时入院就诊。在这方面,卫生防疫部门进行了非常有效的工作,他们通过大数据的方法,及时跟踪流感等高发疾病的发病情况。”

NVIDIA解决方案架构与工程团队副总裁Marc Hamilton

但这里边就存在一个问题,Marc Hamilton接着介绍说:“卫生防疫部门会采集大量病患数据,这些数据必须在很短的时间内得到处理,并实时得出某些医疗数据。如果卫生防疫部门的计算系统很慢,数据处理并得出相关结论的时间已经到了温暖的夏季,感冒已进入低发期,那么这类大数据处理计算就会变得毫无意义。”

这从一个侧面说明了数据时效性的作用,但Marc Hamilton却介绍说:“不得不说,现在的计算系统存在着非常大的瓶颈。如果我们同时处理五个决策树,我们是不是把参与工作的服务器台数增加到了五台,就能提高速度呢?这显然不能,因为五棵决策数里的数据是有关联性的,这五棵数据树因为数据交互的原因,就算我们增加了五台服务器,可能其工作效率也只是相当于一台服务器在工作。”
除了计算系统,数据科学家也是数据时效性的保障因素之一。但受限于计算系统的处理速度,数据科学家能做的事,往往会先把ETL设置好,然后从工作负载中抽取很多数据。再然衙他们就不得不一边喝茶一边等着机器处理这些数据。如果他们需要更多数据,这个开启过程可能会更长。尽管他们在软件的编码、命令集上做的工作非常不错,但为了保证数据时效性,他们又必须有时候闲得喝茶打发时间,有时却又需要加班加点。

RAPIDS是否是一条救赎之路
事实上,如果数据科学家处于这样的环境,对他们来说确实不是一件妙事。因为一方面,摩尔定律正在逐渐失效;另一方面,人工智能正以人家想像不到的速度得到更广的普及。NVIDIA创始人兼首席执行官黄仁勋在GTC CHINA 2018上表示:“以前,每年微处理器速度变得越来越快,每10年微处理器的性能增强100倍,这是行业赖以依存的基础。而现在,每10年算力不过才增加了2-3倍。这种情况的延续,会造成整个行业的算力短缺。”
Marc Hamilton解释说:“显然单纯增加算力的方法,已经变得越来越困难,通用计算、C语言编译器编写通用程序是非常灵活的,未来,我们仍然需要通用计算的灵活性,我们没有把CPU移除,我们只是加了额外的芯片去执行特别重的并行负载。我们把这个新方法称为是加速计算。我们已为加速计算创造出了RAPIDS。”

当算力出现瓶颈时,RAPIDS来了。而谈起RAPIDS,MarcHamilton介绍说:“为加速应用程序,我们必须完全重新设计软件堆栈、整个芯片的架构、系统软件、算法、应用程序,都必须得到优化,只有这样才才能充分利用到加速计算。但这并不意味着我们的用户需要进行推倒式的创新。XGBOOST其实是一个非常好的算法,我们不需要创造新的算法,我们只需要让XGBOOST和其它的机器学习算法更快。对用户来说,他们获益的方法,可能只是让开发人员写三行代码,然后让数据跑在CUDA的数据框架上。”

这其实并不难理解,就象我们坐飞机旅行,要研发和制造飞机、修建机场的确是一件非常困难的事情。但当一切的底层基础设施修建好之后,坐飞机旅行就成为一件在手机上动动手指完成机票预定这样简单的事情了。

Marc Hamilton接着介绍说:“RAPIDS由一系列组件所组成,其中最主要的,是cuDF,它是CUDA的数据框架,帮助我们收集数据。另一个是cuML,利用它可以实现CUDA下的机器学习。还有一部分cuGRAPH可以帮助处理图像。”

从MarcHamilton的介绍中,我们不难发现,它适用于希望提高自己的工作速度,同时又不愿投入时间来学习新软件的数据科学家。由于RAPIDS是开源的,NVIDIA的工作人员每天都会把关于它的更新上传,当更新积累到一定程度之后,会利用容器技术把这些改变统一上传到云端。从这些特点上,我们不难分析出,由于是开源技术,任何人都可以得到它。同时由于它可以在任何NVIDIA的GPU上跑,硬件适应性极强的特点,让RAPIDS的使用门槛极低。

RAPIDS的应用之路
也正是由于RAPIDS的功效和特点,一经推出,在中国国内,就有华大基因、中国移动、平安公司等多家公司采用了这项技术。

关于RAPIDS的应用,Marc Hamilton谈到了另一个重要的问题:“虽然RAPIDS是开源的,但如果用户购买了DGX-1或者DGX-2,他们的RAPIDS是由英伟达所支持的。而且不光是RAPIDS,所有的GPU容器都是放在‘云’上的,如果用户买DGX的话,他们可以得到每周七天、每天24小时的企业级的支持。如果用户是买‘云’上的服务,不管是华为的,还是浪潮的,都可以通过我们开发者论坛的网络进行支持。很多客户从我们这里直接买DGX,是因为他们希望在整个‘堆栈’实现一周7天、一天24小时的企业级支持。”

如此一来,开源的软件却可以得到商用的支持,RAPIDS应用之路上的最后一道障碍也被扫清了。接下来,我们只需要等待,让时间来回答我们:大数据的时效性能否靠RAPIDS来拯救?

本文来源:中国软件网

最近看过此主题的会员

mylawn

fengchen

langzhu

admin

夜袭光棍村

韦韬然

1个回答

只看楼主

韦韬然 数据老手Lv5

发表于2018-11-26 11:12

只看该作者

取消 关注该作者的回复

沙发

登录后可回答问题,请登录注册

快速回复 返回顶部 返回列表

小时

全天响应

分钟

快速处理问题

工程师强势助力

明星产品
解决方案
联系合作

渠道咨询电话:137-0120-6790

技术支持QQ:400-0011-866(工作日9:00-18:00)

产品建议邮箱yixin@esensoft.com

关注我们

扫TA学习更多干货

一对一专家交流

版权所有© 2006-2024 北京亿信华辰软件有限责任公司 京ICP备07017321号 京公网安备11010802016281号