-
宋宋 数据领袖Lv6
发表于2020-3-26 15:38
楼主
坚持那是肯定的,不坚持连饭都吃不上。2019年,我给公司面试了很多人,时间超过1个半小时的应该在100人以上,但是入职的不超过5个。结合我自己在公司内部的工作,基本上可以说,至少在‘AI+’行业,2019年不仅就业前景严峻,连从业者前景也很严峻。
17年之前我在互联网行业打拼, 虽然加班,但是基本上守着自己的一亩三分地,还算压力小,其他的事情也无需我过问。17年转入智慧医疗创业,负责的东西非常多了,从前端到后端,从产品到市场,都要操心,但基本上还是技术占主流。所以17年和18年基本上是在技术和数据上钻研。19年真正开始落地,主动和被动学习的东西非常多,切实感觉到远比调包堆层难太多。不管是‘互联网+’还是‘AI+’,垂直行业的关节比想象要复杂很多。用咨询行业经常讲的一句话:客户要的是solution,不是model。model是实验室的产物,solution才是推向市场的结果。solution意味着需要产品化和工程化的思维方式。
产品化除了包含传统意义上的产品设计和用户体验,更多是指符合垂直行业的业务逻辑。这一点其实对于纯计算机行业的人很难,一方面计算机毕业的学生必然没有这方面的知识储备,另一方面主动愿意学的人几乎没有。毫不客气的说,可能只有生物医学专业的人或有过相关经验的人才能真正设计出符合医学逻辑的产品。而这一点恰恰是落地的关键。我个人负责的是医疗文本方向,举个简单的例子。肝癌中有一些预测预后是否良好的指标,比如分化程度,切缘,病理亚型等。我们可以建立一个模型预测一下。首当其冲的问题是用什么模型?准备上AutoML吗?线性回归,SVM,深度模型其实都不算太好。医生们最喜欢决策树,因为临床过程中好落地。第二个问题是,用什么指标?如果完全按照模型的结果来筛指标,基本上失败了一半。最好的方案是先问一下医生有什么建议。有先验知识可以用,不用岂不是太浪费。以肝癌为例,其实上述指标都和预后有关,但是最好的是MVI微脉管侵犯。因为2015年国内指南明确推荐使用这个指标,而且有明确的临床意义。这种事情在智慧医疗行业很多,甚至有些不讲理。近几年在深度学习方向非常推崇端对端的学习方式,某种意义上给黑盒属性和不可解释性包装了一个冠冕堂皇的外衣。我不是说端对端不好,但是这种完全忽视业务逻辑的模型范式,不是行业通吃的。尤其是注重决策的场景,是非常重视过程的。过程讲不通,roc再好也不行。
工程化的要求在2019年更为迫切。记得之前,有文章提到过,AI创业企业决胜的关键不是模型,而是工程能力。其实国内很多互联网医疗或者智慧医疗创业公司的工程化能力应该都不算强。我的这个论断是基于对一些有代表性的产品的考察和分析。我们自己的外包人员反馈,以及医院药厂对友商的评价,也支持这个理解。应该说,这些公司的算法能力可能和大企业没有太大差距,毕竟很多人都是从大企业挖过来的。但是工程能力差了一大截。可能与很多有经验的开发人员不愿意去小公司或被忽视,以及类似2C的高性能并发等场景需求不多有关。我个人也觉得招到一个合适的开发颇有难度。本质上讲,创业公司的开发人员初期最好是全栈,即使不是全栈,也能理解前端和后端的概念和接口。这种要求不是三年经验能训练出来的。另外,医学领域对于数据安全和稳定性的考量几乎是第一位的,有些时候有点不可抗力的性质。2019年发生了个别伦理审查已经通过,项目已经正式开始,但是最后被主PI院长因为数据不在私有云上而暂停的事情。这种自打自脸的事情医院是干的出来的。某种程度上,似乎也是医院内山头林立的结果。还有一个体会是,很多创业公司都喜欢用各种软件的开源版本或者社区版本。但是这些版本的灵活性和性能都会打折扣(有些版本只能支持单个账户登录,或者只能挂载一个数据库)。如果公司不愿意花钱,而且没有真正的工程人员介入的话,这些产品基本上是半成品。
围绕着这个solution思维,2019年因为AI落地的事情占用了我大量的时间,技术方面主要是数据安全,知识产权和招聘。哪一个环节都不敢怠慢。数据安全很好理解,医院需要数据安全存放,药厂需要规避数据安全风险,监管机构需要数据安全方案。但是你要知道,目前的安全等保和HIPAA等,更多的是在用流程控制安全。公司要想提高数据安全除了物理隔离,加密,灾备,更多时间是在准备各种文档说明自己的生产过程符合安全规章制度。当一个领域无法用技术提升时,通常会采用过程管理。这东西非常像软件成熟度模型CMM,试问哪个IT人员愿意花时间在这上边。知识产权的问题主要是和医院药厂合作完成项目时的文章,算法,产品的产权分配。最一般的场景是,医生给你标注了数据集,你拿来训练深度模型,又发了文章,开发了产品。专利律师的理解是,这种情况下对方是否有权利要求知识产权目前完全看双方协商。其实从公司层面,多挂一个名字也没什么,主要是怕让甲方误会,曲解,影响了业内口碑啊。而且在AI爆棚的时期,发专利也并不难。招聘的事情,今年也废了老大劲。所以我说就业前景是严峻的。最深的感触是很多自称是算法工程师的人骗面试,最大的特点是专业非计算机,数据或统计出身,简历上各种“熟悉”,“精通”模型框架,加上泰坦尼克号项目经验。我个人又非常喜欢问基础问题,例如讲一个聚类算法或解释一下tfidf,瞬间露馅。还有些自称精通python的人,答不上来yield和return的区别,或者python的向量化操作。我是真的累了。我差点给hr训练一个基于简历的虚假申请者分类器。
2019年,我个人几乎没有在追什么前沿的NLP模型,各种BERT,transformer也是通过公众号的新闻了解。我主要觉得这些模型一来需要大量标注数据,这在中文医疗文本行业内几乎不可能;二来实际效果能有多大提升也未可知,医生是否接受也是个挑战。我越来越觉得AI掉进了一个大牛挖坑,小牛填坑,工程师调参,外行将信将疑的境地。大家都在关注工具属性,很少人关注落地属性。不过作为技术人员2020年可能还是要补一补。2019年因为响应各种需求也有些收货,学习了neo4j,arangodb等nosql数据库,还有面向仪表盘的web开发,自动化部署的docker开发,还研究了点异常点检测和度量学习。唯一的目的就是希望能发现更多的方向是客户真正认可和关注的。东西都学杂了,脑子有点乱。有一次,在R里用str()想转换为字符串(python里str()是用来转换为字符串的,而R里str()是返回数据框结构的),一时没有发现。
我在知乎另一个回答中提了很多机器学习在医疗领域的坑。
其实我本人是希望大家都能理性看待AI的能力和前景。如果有机会,我甚至会写一个‘机器学习有哪些非常有意义的研究方向?’的回答。AI的2B业务和传统互联网中业务完全是两码事,尊重行业积淀,尊重兄弟学科是一个基本前提。不可否认,很多传统行业和制造业,例如AI最火的安防,自动驾驶和智慧医疗可能都深受社会制度和甚至行业痼疾的影响,你要进来,面对的不是一个企业,而是一个链条。
作为计算机出身的人,我自然希望AI能大放异彩。但是这个行业混进来一些浑水摸鱼的人,一些过于乐观的人,还有一些只想赚快钱的人。而坚持不仅仅是一种态度,更多的是一种能力,未来必然会有一些企业‘化作春泥更护花’。
来源互联网
17年之前我在互联网行业打拼, 虽然加班,但是基本上守着自己的一亩三分地,还算压力小,其他的事情也无需我过问。17年转入智慧医疗创业,负责的东西非常多了,从前端到后端,从产品到市场,都要操心,但基本上还是技术占主流。所以17年和18年基本上是在技术和数据上钻研。19年真正开始落地,主动和被动学习的东西非常多,切实感觉到远比调包堆层难太多。不管是‘互联网+’还是‘AI+’,垂直行业的关节比想象要复杂很多。用咨询行业经常讲的一句话:客户要的是solution,不是model。model是实验室的产物,solution才是推向市场的结果。solution意味着需要产品化和工程化的思维方式。
产品化除了包含传统意义上的产品设计和用户体验,更多是指符合垂直行业的业务逻辑。这一点其实对于纯计算机行业的人很难,一方面计算机毕业的学生必然没有这方面的知识储备,另一方面主动愿意学的人几乎没有。毫不客气的说,可能只有生物医学专业的人或有过相关经验的人才能真正设计出符合医学逻辑的产品。而这一点恰恰是落地的关键。我个人负责的是医疗文本方向,举个简单的例子。肝癌中有一些预测预后是否良好的指标,比如分化程度,切缘,病理亚型等。我们可以建立一个模型预测一下。首当其冲的问题是用什么模型?准备上AutoML吗?线性回归,SVM,深度模型其实都不算太好。医生们最喜欢决策树,因为临床过程中好落地。第二个问题是,用什么指标?如果完全按照模型的结果来筛指标,基本上失败了一半。最好的方案是先问一下医生有什么建议。有先验知识可以用,不用岂不是太浪费。以肝癌为例,其实上述指标都和预后有关,但是最好的是MVI微脉管侵犯。因为2015年国内指南明确推荐使用这个指标,而且有明确的临床意义。这种事情在智慧医疗行业很多,甚至有些不讲理。近几年在深度学习方向非常推崇端对端的学习方式,某种意义上给黑盒属性和不可解释性包装了一个冠冕堂皇的外衣。我不是说端对端不好,但是这种完全忽视业务逻辑的模型范式,不是行业通吃的。尤其是注重决策的场景,是非常重视过程的。过程讲不通,roc再好也不行。
工程化的要求在2019年更为迫切。记得之前,有文章提到过,AI创业企业决胜的关键不是模型,而是工程能力。其实国内很多互联网医疗或者智慧医疗创业公司的工程化能力应该都不算强。我的这个论断是基于对一些有代表性的产品的考察和分析。我们自己的外包人员反馈,以及医院药厂对友商的评价,也支持这个理解。应该说,这些公司的算法能力可能和大企业没有太大差距,毕竟很多人都是从大企业挖过来的。但是工程能力差了一大截。可能与很多有经验的开发人员不愿意去小公司或被忽视,以及类似2C的高性能并发等场景需求不多有关。我个人也觉得招到一个合适的开发颇有难度。本质上讲,创业公司的开发人员初期最好是全栈,即使不是全栈,也能理解前端和后端的概念和接口。这种要求不是三年经验能训练出来的。另外,医学领域对于数据安全和稳定性的考量几乎是第一位的,有些时候有点不可抗力的性质。2019年发生了个别伦理审查已经通过,项目已经正式开始,但是最后被主PI院长因为数据不在私有云上而暂停的事情。这种自打自脸的事情医院是干的出来的。某种程度上,似乎也是医院内山头林立的结果。还有一个体会是,很多创业公司都喜欢用各种软件的开源版本或者社区版本。但是这些版本的灵活性和性能都会打折扣(有些版本只能支持单个账户登录,或者只能挂载一个数据库)。如果公司不愿意花钱,而且没有真正的工程人员介入的话,这些产品基本上是半成品。
围绕着这个solution思维,2019年因为AI落地的事情占用了我大量的时间,技术方面主要是数据安全,知识产权和招聘。哪一个环节都不敢怠慢。数据安全很好理解,医院需要数据安全存放,药厂需要规避数据安全风险,监管机构需要数据安全方案。但是你要知道,目前的安全等保和HIPAA等,更多的是在用流程控制安全。公司要想提高数据安全除了物理隔离,加密,灾备,更多时间是在准备各种文档说明自己的生产过程符合安全规章制度。当一个领域无法用技术提升时,通常会采用过程管理。这东西非常像软件成熟度模型CMM,试问哪个IT人员愿意花时间在这上边。知识产权的问题主要是和医院药厂合作完成项目时的文章,算法,产品的产权分配。最一般的场景是,医生给你标注了数据集,你拿来训练深度模型,又发了文章,开发了产品。专利律师的理解是,这种情况下对方是否有权利要求知识产权目前完全看双方协商。其实从公司层面,多挂一个名字也没什么,主要是怕让甲方误会,曲解,影响了业内口碑啊。而且在AI爆棚的时期,发专利也并不难。招聘的事情,今年也废了老大劲。所以我说就业前景是严峻的。最深的感触是很多自称是算法工程师的人骗面试,最大的特点是专业非计算机,数据或统计出身,简历上各种“熟悉”,“精通”模型框架,加上泰坦尼克号项目经验。我个人又非常喜欢问基础问题,例如讲一个聚类算法或解释一下tfidf,瞬间露馅。还有些自称精通python的人,答不上来yield和return的区别,或者python的向量化操作。我是真的累了。我差点给hr训练一个基于简历的虚假申请者分类器。
2019年,我个人几乎没有在追什么前沿的NLP模型,各种BERT,transformer也是通过公众号的新闻了解。我主要觉得这些模型一来需要大量标注数据,这在中文医疗文本行业内几乎不可能;二来实际效果能有多大提升也未可知,医生是否接受也是个挑战。我越来越觉得AI掉进了一个大牛挖坑,小牛填坑,工程师调参,外行将信将疑的境地。大家都在关注工具属性,很少人关注落地属性。不过作为技术人员2020年可能还是要补一补。2019年因为响应各种需求也有些收货,学习了neo4j,arangodb等nosql数据库,还有面向仪表盘的web开发,自动化部署的docker开发,还研究了点异常点检测和度量学习。唯一的目的就是希望能发现更多的方向是客户真正认可和关注的。东西都学杂了,脑子有点乱。有一次,在R里用str()想转换为字符串(python里str()是用来转换为字符串的,而R里str()是返回数据框结构的),一时没有发现。
我在知乎另一个回答中提了很多机器学习在医疗领域的坑。
其实我本人是希望大家都能理性看待AI的能力和前景。如果有机会,我甚至会写一个‘机器学习有哪些非常有意义的研究方向?’的回答。AI的2B业务和传统互联网中业务完全是两码事,尊重行业积淀,尊重兄弟学科是一个基本前提。不可否认,很多传统行业和制造业,例如AI最火的安防,自动驾驶和智慧医疗可能都深受社会制度和甚至行业痼疾的影响,你要进来,面对的不是一个企业,而是一个链条。
作为计算机出身的人,我自然希望AI能大放异彩。但是这个行业混进来一些浑水摸鱼的人,一些过于乐观的人,还有一些只想赚快钱的人。而坚持不仅仅是一种态度,更多的是一种能力,未来必然会有一些企业‘化作春泥更护花’。
来源互联网