我的位置：首页 › 行业资讯 › 人工智能 › 你的AI技能没你想的那么值钱，来自一位AI前辈 ...

你的AI技能没你想的那么值钱，来自一位AI前辈的忠告！

复制链接 | 收藏本帖

1811

: 宋宋数据领袖Lv6

发表于2019-9-9 10:02

楼主

本帖最后由宋宋于 2019-9-9 10:02 编辑

我们正处于人工智能的繁荣时期。机器学习专家的工资高得惊人，投资者在见到人工智能初创企业时乐于敞开心扉，掏出支票簿。确实如此：这是每一代人都会经历一次变革的技术之一。科技已经存在，它将改变我们的生活。

这并不意味着让你的人工智能初创企业成功是件容易的事。我认为，在任何人试图围绕人工智能建立业务之前，都有一些重要的坑需要注意。

我的儿子和我，图像处理使用艺术风格转移。这种方法激发了我对深度学习的兴趣。

你的AI技能的价值在下降

2015年，我还在谷歌，开始玩disbelief(后来改名为TensorFlow)，这个东西很烂。写出来的东西并不完全符合你的期望，这是一件非常尴尬的事情。让它在谷歌构建的系统之外工作的想法是一个白日梦。

2016年下半年，我在做一个概念验证，用组织病理学图像检测乳腺癌。我想用迁移学习：使用Inception，谷歌的最佳图像分类架构，并重新训练我的癌症数据。我使用谷歌提供的预训练的初始权重，只是更改顶层以匹配我正在做的事情。经过长时间在TensorFlow中的反复尝试，我终于找到了如何操作不同图层的方法，并使其基本工作。这需要很大的毅力和阅读TensorFlow的资源。至少我不用太担心依赖关系，因为TensorFlow的人很幸运地准备了一个Docker映像。

2018年初，由于缺乏复杂性，上述任务并不适合实习生的第一个项目。多亏了Keras (TensorFlow之上的一个框架)，你只需几行Python代码就可以做到这一点，而且不需要深入了解你在做什么。仍然有点痛苦的是超参数调优。如果你有一个深度学习模型，你可以操纵多个旋钮，比如层的数量和大小等。如何获得最优配置并不简单，一些直观的算法(如网格搜索)执行得并不好。你做了很多实验，感觉更像是一门艺术而不是科学。

当我写这些话(2019年初)的时候，谷歌和亚马逊提供服务自动模型调优(Cloud AutoML， SageMaker)，微软也计划干同样的事情。我预测手动调优将会像渡渡鸟一样，可以很好的摆脱掉。

我希望你们能看出规律。过去困难的东西现在变得很容易，你可以获得更多而只需要理解很少。过去伟大的工程壮举开始听起来相当小儿科，而且我们不应该期望我们现在的壮举在未来会更好。这是一件好事，也是惊人进步的标志。我们将这一进步归功于谷歌这样的公司，他们在这些工具上投入了大量资金，然后免费提供这些工具。他们这样做的原因有两方面。

把你商品化之后你的办公室

首先，这是对他们实际产品(云基础设施)的商品化补充的尝试。在经济学中，如果你倾向于同时购买两种商品，那么它们就是互补的。例如：汽车和汽油，牛奶和麦片，培根和鸡蛋。如果一种互补品的价格下降，对另一种互补品的需求就会上升。对云计算的补充是运行在云计算之上的软件，而人工智能也有一个很好的特性，那就是它需要大量的计算资源。因此，使其开发尽可能便宜是很有意义的。

谷歌特别热衷于人工智能的第二个原因是，相对于亚马逊(Amazon)和微软(Microsoft)，它们拥有明显的优势。他们起步较早，正是他们普及了深度学习的概念，所以他们成功地吸引了很多人才。他们在开发人工智能产品方面有更多的经验，这使他们在开发必要的工具和服务方面具有优势。

尽管取得了令人兴奋的进展，但对于在人工智能技能方面投入巨资的企业和个人来说，这都是坏消息。今天，他们给你一个坚实的竞争优势，因为培训一个有能力的ML工程师需要花大量的时间阅读论文，和一个坚实的数学背景。然而，随着工具的改进，情况将不再是这样。它将更多地成为阅读教程，而不是科学论文。如果你不尽快意识到你的优势，一群图书馆的实习生可能会吃掉你的午餐。尤其是，如果实习生有更好的数据，这就引出了我的下一个观点……

数据比酷炫的AI架构更加重要

假设你有两个人工智能创业公司的创始人，Alice和Bob。他们的公司筹集了大约相同数量的资金，在同一个市场上展开了激烈的竞争。Alice把钱于最优秀的工程师和在人工智能研究方面有着良好记录的博士。Bob雇佣平庸但有能力的工程师，并把钱花在给她更好的数据上。你会把钱押在哪家公司？

我完全相信Bob。为什么？从本质上讲，机器学习是通过从数据集中提取信息并将其传递给模型权重来实现的。一个更好的模型在这个过程中更有效率(就时间和/或整体质量而言)，但是假设一些充分性的基线(也就是说，模型实际上正在学习一些东西)更好的数据将胜过更好的体系结构。

为了说明这一点，让我们进行一个快速而粗略的测试。我创建了两个简单的卷积网络，一个更好，一个更差。较好的模型的最后一个dense层有128个神经元，而较差的模型只有64个神经元。我将他们在MNIST数据集的子集上训练，并将模型的准确性与他们训练的样本的数量进行了对比。

蓝色是“较好的”模型，绿色是“较差的”模型。

训练数据集大小的积极影响是显而易见的(至少在模型开始过拟合和精度停滞不前之前)。我的“较好”模型(蓝线)明显优于“较差”模型(绿线)。但是，我想指出的是，在4万个样本上训练的“差”模型的精度要比训练在3万个样本上的“好”模型的精度高 !

在我的toy示例中，我们在处理一个相对简单的问题，并且我们有一个全面的数据集。在现实生活中，我们通常没有这样的好事。在许多情况下，你永远无法逃脱图表中增加数据集具有显著效果的部分。

更重要的是，Alice的工程师实际上并不只是在和Bob的人竞争。由于人工智能社区的开放文化及其对知识共享的重视，他们也在与来自谷歌、Facebook、微软和世界各地数千所大学的研究人员竞争。如果你的目标是解决一个问题(而不是对科学做出最初的贡献)，那么采用目前在文献中描述的性能最好的体系结构并在你自己的数据上对其进行再训练是一种经过检验的策略。如果现在没有什么好东西可用，通常需要等上一两个季度，直到有人想出一个解决方案。特别是，你可以做一些事情，比如主办Kaggle竞赛，以激励研究人员研究你的特定问题。

好的工程能力总是很重要的，但如果你在做人工智能，数据是创造竞争优势的因素。然而，最重要的问题是，你是否能够“保持”自己的优势。

在AI中，保持你的竞争优势是很难的

凭借她出色的数据集，Bob成功地与Alice竞争。她做得很好，推出了自己的产品，并稳步扩大市场份额。她甚至可以开始聘用更好的工程师，因为大街上有传言说，她的公司是最佳选择。

Chuck需要进行追赶，但他的钱比Bob多得多。当涉及到构建数据集时，这一点很重要。通过砸钱来加速一个工程项目是非常困难的。事实上，分配太多的新人会阻碍发展。然而，创建数据集是另一种类型的问题。通常，它需要大量的人力劳动——你可以通过雇佣更多的人来轻松地扩大规模。也有可能是某人拥有这些数据——然后你所要做的就是支付许可证费用。无论如何，钱使它走得更快。

为什么Chuck能比Bob筹到更多的钱？

当一位创始人筹集资金时，他们试图平衡两个可能存在冲突的目标。他们需要筹集足够的资金才能获胜。但他们不能筹集太多资金，因为这会导致过度稀释。接受外部投资者意味着出售公司的一部分。创始团队必须在初创企业中保持足够高的风险，以免失去动力(创业是一项艰巨的工作！)

另一方面，投资者希望投资于具有巨大潜力的创意，但他们必须控制风险。随着感知风险的增加，他们每支付一美元，就会要求获得公司更大的份额。

当Bob在筹集资金时，她对人工智能能真正帮助她的产品充满信心。不管她作为创始人的素质如何，也不管她的团队有多优秀，她一直在攻击的问题肯定是难以解决的。Chuck的情况完全不同。他知道问题是容易处理的：Bob的产品就是活生生的证明！

Bob对这一挑战的一个潜在反应是再筹集一轮资金。她应该处于有利的地位，因为(目前)她在赛跑中仍领先。然而，情况可能更为复杂。如果Chuck可以通过一种战略关系来确保对数据的访问呢？例如，假设我们正在谈论一家癌症诊断初创公司。Chuck可以利用他在一家重要医疗机构的内部职位，确保与该机构达成私下交易。Bob完全不可能达到那个水平。

你的产品应该有壁垒，最好有一个很深的护城河

那么，你将如何为人工智能产品建立一个“可维持的”竞争优势呢？不久前，我有幸与微软研究院(Microsoft Research)的Antonio Criminisi进行了交谈。他的想法是，该项目的秘密武器不应该只包括人工智能。例如，他的InnerEye项目使用人工智能和经典(非基于ML)计算机视觉来分析放射图像。在某种程度上，这可能与你当初为什么要创建一家人工智能初创企业存在矛盾。将数据扔向模型并看到它工作的能力非常有吸引力。然而，传统的软件组件(这种组件要求程序员考虑算法，并利用一些难以获得的领域知识)的复现要难得多。

AI最好是用作杠杆

在业务中对某些东西进行分类的一种方法是，它是直接增加价值，还是为其他价值来源提供杠杆。让我们以一家电子商务公司为例。如果你创建了一个新的产品线，你就直接增加了价值。以前什么都没有，现在有了个小工具，客户可以为它们付费。另一方面，建立新的分销渠道是一个杠杆。通过开始在Amazon上销售小工具，你可以将销售额翻一番。削减成本也是一种杠杆。如果你和中国的小工具供应商协商出更好的价格，你的毛利率可以翻一番。

杠杆比直接施加力更有可能使针移动得更远。然而，杠杆只有在与直接的值源耦合时才能工作。一个很小的数字，如果你把它翻倍或三倍，它还是很小。如果你没有可以销售的小工具，那么获得一个新的分销渠道就是在浪费时间。

在这种情况下，我们应该如何看待人工智能？有很多公司试图让人工智能成为他们的直接产品(图像识别等api)。如果你是一个人工智能专家，这可能非常诱人。然而，这是一个非常糟糕的主意。首先，你要与谷歌和亚马逊这样的公司竞争。其次，创造一款真正有用的通用人工智能产品是非常困难的。例如，我一直想使用谷歌的Vision API。不幸的是，我们从来没有遇到过这样一个客户，他的需求与我们提供的产品完全匹配。这总是太多了，或者是不够，定制开发要比在圆孔中安装方钉更好。

更好的选择是把人工智能当作杠杆。你可以采用一个现有的、有效的商业模式，并用人工智能为其充电。例如，如果你有一个依赖于人类认知劳动的过程，将其自动化将为你的毛利率创造奇迹。我能想到的一些例子，心电图分析，卫星图像分析。同样令人兴奋的是，由于人工智能停留在后端，你有一些非人工智能选项来构建和维护你的竞争优势。

结论

人工智能是一项真正具有变革意义的技术。然而，将你的创业建立在它的基础上是一件棘手的事情。你不应该仅仅依靠你的人工智能技能，因为它们会随着更大的市场趋势而贬值。构建人工智能模型可能非常有趣，但真正重要的是拥有比竞争对手更好的数据。保持竞争优势是很困难的，尤其是当你遇到比你更富有的竞争对手时，如果你的人工智能理念获得成功，这种情况很可能发生。你的目标应该是创建一个可扩展的数据收集流程，而这个流程很难被竞争对手复制。人工智能非常适合颠覆那些依赖于低水平人类认知工作的行业，因为它允许自动化这项工作。

来源互联网