当前位置:首页 > 资讯 > 正文

UIUC罗宇男:交叉学科中的人工智能和科学发现

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年8月29日,第18期“AI未来说·青年学术论坛”(“AI+X”领域专场)以“线上平台直播+微信社群图文直播”形式举行。UIUC罗宇男带来报告《交叉学科中的人工智能和科学发现》。

罗宇男的研究方向是AI+X,人工智能、药物发现、计算生物学、化学、农业等等领域。总的来说人工智能是很有效的技术,能够挖掘数据当中存在的信息,转化成为知识,从而提供不同领域的预测甚至决策。本次论坛他为大家介绍了几个方面的人工智能和交叉学科的研究。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第1张

交叉学科中的人工智能和科学发现

UIUC罗宇男:交叉学科中的人工智能和科学发现  第2张

他的报告首先是AI和生物方面,其中第一个例子是结合AI的蛋白质工程以及基于数据驱动的分析。生物化学有一个重要的领域就是蛋白质工程,目的是寻找或者优化自然界当中现存的蛋白质性质。比如抗体也是一种蛋白质,现在如果想要发现或者设计结合更好的抗体,比如更好地结合新冠肺炎的病毒,就需要优化自然界现有的蛋白质使其拥有更好的性质。因此研究者们可能会遇到这样的问题,就是怎样设计一个蛋白质的序列,使其具有某种想要的信息。这是一个非常难的问题,蛋白质序列的影响非常大,比如哪怕一个蛋白质有五个氨基酸,它的可能的序列就达到几十万中,然而自然界中的很多蛋白质所含氨基酸会更多,可能会超出计算机所能穷举的最大数目。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第3张

2018年诺贝尔化学奖获得者Frances提出的一种方法是蛋白质定向进化,随机进行蛋白的突变,比如氨基酸从A变成B,对于具有突变的蛋白在实验室测量某种值,可以衡量这个性质的好坏,最后选择性质比较好的部分作为下一代的母本蛋白质并不断迭代,就像一个优胜劣汰的过程,经过几轮迭代之后就可以得到性质很好的蛋白。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第4张

这个方法在效率上受到一定的限制,因为它突变的过程是完全随机的。从研究计算的角度来说,就有很多可以优化的地方,一种直观的方法是可以把测量这个蛋白质的性质部分从实验室的传统非常耗时耗力的流程替换成计算模型,比如用神经网络来预测某个突变后蛋白质的性质,这样在一定程度上提升整个实验的效率。有了这个模型以后,就可以结合这个模型设计出具有某种性质的蛋白质序列,有了这个序列就可以合成出这个蛋白质。罗宇男等人从这个角度出发设计出了人工智能的模型,目的就是加速或者协助传统生物实验流程当中比较耗时耗力的部分,从而能够加速整个蛋白质进化的基础。他们主要结合了两个部分的信息:一个是全局信息,类似自然语言处理的语言模型,但是是在蛋白质上训练的模型,用于蛋白质在全局上面的相互依赖的关系。另一个是生物信息,比如生物蛋白质两个氨基酸之间可能会有协同进化的效应,因为进化的过程当中整个氨基酸并不是独立进化的,可能会有空间和物理性质上的依赖关系,使得两个氨基酸同时进化,这样就会影响结构,结构就会影响功能。他们发现结合这两种信息的模型能够更准确地预测蛋白质的信息。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第5张

除此之外他们还在模拟若干轮次的蛋白质进化。每一轮当中随机突变一些蛋白质,然后用模型预测突变之后蛋白质的性质,选择比较好的那些作为下一轮突变,重复三轮以后罗宇男发现蛋白质性质的分布是越来越朝着数值高的方向推动,也就是说这个模型在不断地提升蛋白质变异后的性质。他们也在实验当中对计算模型进行生物实验验证,通过这个神经网络推荐一些比较好的蛋白质的变种,TEM-1就是细菌当中某种抗药性的蛋白质,然后他们和生物学家合作,在实验室当中对这些蛋白质变种进行合成,并测量抗药性。结果发现模型预测的蛋白质变种的抗药性都高于自然界现存的蛋白质性质,甚至优于训练数据当中最好的样本,说明这个模型成功地发现了性质优于自然界现存蛋白质的蛋白质变种。这个模型可以用来设计更多具有更好性质的蛋白质,比如基因编辑当中的酶和化学催化剂。

罗宇男讲到的第二个例子是分析新冠病毒的多样性。他们的这项工作是对几百个患者进行研究,探究冠状病毒的多样性,包括在患者的体内以及患者群体层面的病毒多样性。现在的方法大多假设一个病人只携带一种基因型的病毒。然而一个病人可能携带多种病毒,同一个病毒在病人体内也可能发生变异进化出不同基因型的病毒。罗宇男等人通过分析现有的数据发现病人携带多种基因型病毒的现象并不罕见,62%的样本中都显示了一个样本内部带有多种病毒基因型的现象。研究病毒在患者内部和群体间的多样性有助于更好地理解这个病毒的特征,重构这个病人病毒传播的路径,最后能够更好地实现更精准的接触追踪,这些都是这个项目的直接应用。

于是,罗宇男等人开发了一个算法,来从测序数据中解析出同一样本内部中的不同毒株。他们基于冠状病毒基因上的41个突变定义了冠状病毒的不同毒株,可以解释整个数据库当中94%样本的多样性。他们的算法基于一个经典的机器学习算法——非负矩阵分解,但是要求分解后的矩阵具有一些限制,比如矩阵A代表某一个毒株内是否存在某种变异,矩阵B代表每个样本每种毒株代表百分之多少。利用这个模型,罗宇男等人对现有的新型肺炎病人的测序数据进行分析,获得了一些有意思的结果。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第6张

比如在美国患者中,第三类分支占到绝大多数,而澳大利亚的毒株就非常多样化,每种毒株都有一定程度的体现,这是关于病毒分布的结果。他们也有考虑在进化上的分布,利用测序数据构建的进化树和他们发现的变异毒株结构也非常相似的。

此外,他们发现这些变异大都处于蛋白质的表面,而且对蛋白质稳定性的影响很小。在能够改变氨基酸类型的突变中,92%都是处于蛋白质的表面上,他们也是从数据出发找到了一些之前文献当中还没有被发现的新的分析结果,然后为后续的研究提供了一些思路。

接着罗宇男介绍了人工智能在药物发现当中的工作。药物的研发是非常漫长、耗时,需要花费巨大资金的过程,往往成功率也是非常低的。他们一直在想能否用AI的技术更高效地发现药物的新用途。于是他们构建了一个大规模的异构生物网络。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第7张

基于这个数据库设计机器学习的算法,来对每个网络当中的每个节点做出低维向量表示,解决网络当中高维度高噪声的问题,从而进行药物和靶点蛋白质之间相互关系的预测。这种方法取得了比现有方法更好的预测效果,图中展示了他们的算法预测中比较靠前的药物和靶点蛋白之间的作用关系,其中大部分能够在之前的文献当中找到相应的论证,对于后面文献当中没有发现、没有找到印证的预测,他们和药物学家合作进行了实验,并证实了他们预测的三种药物和蛋白之间的新作用关系的确是存在的,而这是之前文献中并没有被发现的。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第8张

最后一部分是关于智能农业相关的研究进展。罗宇男及其合作者想要基于海量卫星遥感数据构建一个平台,用这个平台代替传统需要大量的人力、物力、财力实现的农田监测。

UIUC罗宇男:交叉学科中的人工智能和科学发现  第9张

这个过程当中就有很大的挑战,这个平台是想利用卫星图片,然而现有的卫星图片要么空间分辨率高、拍摄频率低,要么拍摄频率高、空间分辨率低。所以罗宇男等人开发了一个算法,将不同时间和空间分辨率的图片整合在一起,生成一个时间和空间分辨率都很高的图片,通过这种方法就可以做很多的事情。比如利用这种数据可以结合计算机视觉的人工智能的模型,可以对每一块农田作物的种类进行预测,对灌溉水的需求量进行预测,罗宇男和他的合作者们在这一方向上发表了多篇了论文,同时他的合作者还设计了一个平台,使得大家可以非常准确地实时观测每一块农田的农作物信息。

(整理人:何嘉伟)

UIUC罗宇男:交叉学科中的人工智能和科学发现  第1张

AI未来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”作用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习理论及应用

4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐

5. 清华柴成亮博士:基于人机协作的数据管理

第二期 自然语言处理专场

1. 中科院张家俊:面向自然语言生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化应用与问题探讨

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳:通过句法分析看上下文相关词向量

第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与应用

2. 清华鲁继文:深度强化学习与视觉内容理解

3. 百度李颖超:百度增强现实技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬 :物体检测最新进展

第四期 语音技术专场

1. 中科院陶建华:语音技术现状与未来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别

第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量

5. 百度段润尧:量子架构——机遇与挑战

第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研究及应用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术

第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目标检测

3. 中科院付鹏:深度学习与机器阅读

第九期 个性化内容推荐专场

1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究

2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用

第十期 视频理解与推荐专场

1. 北京大学袁晓如:智能数据可视分析

第十一期 信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法

2. 人民大学徐君:智能搜索中的排序-突破概率排序准则

3. 百度周景博:POI知识图谱的构建及应用

4. 百度宋勋超:百度大规模知识图谱构建及智能应用

5. 百度冯知凡:基于知识图谱的多模认知技术及智能应用

第十二期 年度特别专场

1. 复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁

2. 清华大学董胤蓬:Adversarial Robustness of Deep Learning

3. UIUC罗宇男:AI-assisted Scientific Discovery

4. 斯坦福应智韬:Graph Neural Network Applications

第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及:信息技术助力新冠防控

2. 北京大学王亚沙:新冠肺炎传播预测模型

3. 百度黄际洲:时空大数据与AI助力抗击疫情——百度地图的实践与思考

4. 百度张传明:疫情下的“活”导航是如何炼成的

第十四期 深度学习线上专场

1. 中国科学院徐俊刚:自动深度学习解读

2. 北航孙钰:昆虫目标检测技术

3. 百度尤晓赫:EasyDL,加速企业AI转型

4. 百度邓凯鹏:飞桨视觉技术解析与应用

第十五期 大数据线上专场

1. 复旦赵卫东:大数据的系统观

2. 中科大徐童:AI×Talent数据驱动的智能人才计算

3. 百度李伟彬:基于PGL的图神经网络基线系统

4. 中科大张乐:基于人才流动表征的企业竞争力分析

第十六期 NLP前沿技术及产业化线上专场

1. 复旦大学黄萱菁:自然语言处理中的表示学习

2. 中科院刘康:低资源环境下的事件知识抽取

3. 百度何中军:机器翻译 —— 从设想到大规模应用

4. 百度孙宇:百度语义理解技术ERNIE及其应用

5. 哈佛邓云天:Cascaded Text Generation with Markov Transformers

6. 复旦大学桂韬:Uncertainty—Aware Sequence Labeling

第十七期 百度奖学金特别专场

1. 麻省理工学院赵明民:能穿墙透视的计算机视觉

2. 卡内基梅隆大学梁俊卫:视频中行人的多种未来轨迹预测

3. 清华大学丁霄汉:深度网络重参数化——让你的模型更快更强

4. 南京大学赵鹏:动态环境在线学习的算法与理论研究

5. 上海交通大学方浩树:人类行为理解与机器人物体操作

UIUC罗宇男:交叉学科中的人工智能和科学发现  第11张

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范