IDEA 的 crazy ideas
我想通过一系列的 IDEA 正在做的科研产品给大家做具体阐述,到底这些 Crazy ideas 在做什么。
首先介绍第一个 crazy idea。今天人工智能在发展时,算法可以产生算法,甚至模型可以构建模型了。那我们的 crazy idea 是未来人工智能是不是可以创造人工智能。
这是我们非常喜欢的 James Simons 教授,他 30 岁时就是数学系教授系主任,他做了一段时间数据研究后,突然有一个 Crazy idea,觉得数字建模可以做量化投资,就成立了所谓的文艺复兴公司,里面有一个基金叫做 Medallion,过去年量化率 60% 多。他以前在 UC 伯克利是陈省身教授的博士。
另外一个例子是 Black,Merton 和 Scholes 这三位诺奖经济奖获得者,他们的研究成果也影响了金融量化领域。还有很多计算机科学家,比如UC伯克利2011年的图灵奖,得奖是因为因果推理做得非常好,也影响到了量化。2018年深度学习三剑客的理论也影响了整个行业的发展。
IDEA 研究院郭健教授带领一个非常强的年轻团队,做的工作非常好。郭教授帮我总结,过去 40 年来量化投资经历的三个阶段,1.0 几个聪明的人自己拍拍脑袋想了一些模型出来,2.0 是由小工厂变成大作坊,更多人去找这样的因子,能够做成一条流水线。现在机器学习后,用机器学习来做模型,在 3.0 年代。
即使今天 3.0 也没有真正做到深度学习可以做到的地步,我们提出可以做得更加好,做到 4.0 的阶段。它有几个特点,手工建模到自动建模,从原来是黑盒子到可解释的人工智能,从只是数据驱动变成数据驱动加上自身驱动。我们这方面做了很多工作。
接下来讲第二个 Crazy idea,我想介绍医疗健康方面的,谢育涛在IDEA 做的一个 mission driven (使命驱动)的项目,希望未来让任何疾病都有「谱」可「医」,让医疗知识能够普惠大众。
去年 IDEA 大会,跟大家简单介绍过,我们和哈佛一起合作,和清华俞声教授一直在做,我们想做的是数据驱动的、人工智能帮助的超级知识图谱,能把全世界的医疗知识做成超级知识图谱。我们对标的是全世界最大的美国做的系统 UMLS (unified medical language system)。我们做了不到两年,已经初见成效,也已经在网上公开。
今天 BIOS 整个系统已经是全世界做得最好的,我们的词条数目远远超过美国的 UMLS 系统,概念数量更加远远超过原来的。道理也非常简单,因为我们是数据驱动的,每天都在挖,每天新的医学论文出来后,不断找到新的词条。准确率、覆盖率,也是远远超过竞争对手。
我们还在继续做,希望大家尝试看看我们这样一个系统。未来应用的空间非常广泛,我们希望英语、中文甚至拓展到国际上的其他语言。
第三个 Crazy idea,在教育方面我们有一些想法,我喊了一句口号「让天下没有难读的论文」。
今天做科研都是花很多时间在读论文,论文非常难读,因为大多数论文、包括我们自己的论文,写得很差,还要读,怎么样很快把论文读清楚,我叫做粗读,怎么样读进去,叫做精读,怎么样了解这些东西后还为自己所用。这里有很多方法,包括找论文不方便,管理工具不方便。
今天我在这里非常高兴的发布 readpaper2.0 版,我们的系统都是公开免费的。readpaper2.0 版尝试解决四大问题:找论文问题、智能阅读问题、文献管理问题、学术讨论问题。
最后想跟大家分享一下使命驱动型的方向,谈人工智能在企业方面的应用。题目叫做「第四维度的辅助决策」。我们想做一个商业的事理图谱。大家今天听了很多的事理图谱,它里面最重要的就是多了一个纬度,就是时间维度信息。这样跟传统的知识图谱不一样,你可以知道事件之间发生的因果关系、时序关系。为什么很重要呢?作为一个企业,你必须要关心到底在这样一个动荡的商业环境下应该做一些什么样的决策。
07寻找创新的「甜区」
最后我想再总结一下,在创新资本的范式中,IDEA 研究院聚焦在哪里。我们其实一直想找一个创新的「甜区」。有这样一些经费的支持,做一些使命驱动型的创新,但又不停留在这里,能够往前走把很多东西真正落地。