-
挨踢妹 数据达人Lv4
发表于2018-9-2 22:01
楼主
我可能不会感到惊讶的是,随着数据量的增加,互联网一直在膨胀,以至于很难跟踪。如果在2005年我们几乎没有处理0.1 zettabytes的数据,这个数字现在刚好超过20 zettabytes,甚至估计到2020年达到惊人的47 Zettabytes。除了它的数量庞大,问题在于事实它主要是非结构化的。对人类来说,没有什么比向人工智能提供不完整或不准确的数据更有害了。
似乎我们只处理了大约10%的结构化数据,而其余的只是一堆没有标记的信息,并且不能被机器以建设性的方式使用。为了更好地理解这个主题,最好知道电子邮件不符合结构化数据的条件,而电子表格等任何内容都被认为是标记的并且可以被机器成功扫描。
这似乎不是问题,但如果我们希望人工智能改善我们在医疗保健,无人驾驶汽车,联网住宅等行业的生活,我们需要拥有干净和有组织的数据。具有讽刺意味的是,我们已经非常擅长创建内容和数据,但我们还没有找到一种方法来准确地利用它来满足我们的需求。
数据科学是过去几年中获得大量成功的领域之一,这是很自然的,越来越多的数据科学家致力于解决这些混乱局面。然而,最近的一项调查显示,与流行的观点相反,数据科学家在构建算法和挖掘模式数据方面花费的时间要少得多,而是在做所谓的数字清洁工作 – 清理和组织数据。正如你所看到的,这些数字肯定不支持明亮的AI未来。
人工智能阻止人类消灭的预测因素显然没有考虑到这样一个事实,即尽管机器可以成功地取代实际挖掘模式数据的少数数据科学家,但他们可能无法取代绝大多数专注于科学家的科学家。他们大部分时间来收集,清理和组织这些数据。当然,最好是直接从一开始就以更完整的方式收集数据,而不是分配如此多的时间和资源来追溯“修复”它。幸运的是,人工智能的领导者也慢慢地达到了这种理解,利用他们的技能和影响力来重定向数据科学走向的道路 – 并且隐含着人工智能。
我们都听过机器的情况,当面对真实的人类时,这些机器被证明是超人的,例如世界上最好的Go玩家被谷歌的AlphaGo AI 击败的情况。然而,这仅表明AI能够在小众任务中产生惊人的结果,但其总体容量仍然与人类能力无法匹敌。AI有许多细微之处和逻辑步骤无法处理。
在处理财务申报和法律诉讼时,AI的限制更加明显。这是同一个问题,因为它在其他地方。只要AI机器没有输入结构化数据,例如标准化合同,它们就会被严重混淆。这意味着,目前仍然需要合格的数据科学家才能解决问题。
高素质的数据分析师聘用成本很高,这使得在这一领域取得进展成为一个进一步的问题。关键是要通过可以简化流程的技术来完成收集和建模阶段。
另一个关键方面是多个部门共同努力解决和解决大数据带来的问题。财务和技术专家需要联手,以便从一开始就正确识别他们收集的数据中的潜在缺陷。还应该注册这些专家解决问题的方式,然后由机器成功复制。目标是创建质量保证算法,该算法可以精确定位过去与错误相关的建模结果。我们能够创建的模型越多,数据错误和不规则性的空间就越小。
没有大数据,AI就无法生存
无论AI正在采取什么样的方向 – 如果它对人类有好处或坏处 – 有一件事是肯定的:如果没有大数据,AI就无法前往任何地方。而且我们已经从日常生活中得到了我们很可能认为理所当然的例子,这证明了AI在他们的存在中是多么必要。以Cortana或Siri为例。他们能够理解我们的问题和疑问只是因为他们已经获得了无数的信息,帮助他们理解我们的自然语言。谷歌已经成为这个巨大的无所不知的力量,它对我们每一个人都非常了解,只是因为我们每天都有大量的搜索引擎。为此,公司还能够制作准确的报告 – 例如,那些可以使用revcontent识别网站的报告,这要归功于最初收集数据的整洁程度。
由于人工智能与大数据密切相关,因此只有它能够访问干净的结构化数据才能以改善我们生活的方式进行处理。幸运的是,世界正在逐渐了解人工智能发展背后的需求。这就是为什么我们注意到数据科学家在资金,工资,工具和设备方面的工作方式得到了改善。
这种意识正在全球范围内慢慢传播,使公司和专家能够相互合作,以便更有效地收集数据,建立可以进一步帮助机器清理和构建数据的模型,并为未来的后代奠定基础。知道AI和大数据的问题源于何处意味着问题已经解决了一半。
- 作者:Philip Piletic