首页 > 资讯 > 内容

机器学习算法只需很少的训练就能发现隐藏的科学知识

资讯 2019-12-18 16:14:12

当然,计算机可以用来下特级象棋(chess_computer),但它们能做出科学发现吗?美国能源部劳伦斯·伯克利国家实验室(伯克利实验室)的研究人员已经证明,一种未经材料科学训练的算法可以扫描数百万篇论文的文本,并发现新的科学知识。

加州大学伯克利分校实验室的科学家Anubhav Jain领导了一个研究小组分布式资源划分,收集了330万篇已发表的材料科学论文摘要,并将其输入一个名为Word2vec的算法中。通过分析词与词之间的关系,该算法能够提前数年预测新热电材料的发现,并提出尚未发现的材料作为热电材料的候选材料。

“在没有告诉它任何材料科学的情况下,它学习了元素周期表和金属晶体结构等概念,”Jain说。这暗示了这项技术的潜力。但可能我们发现的最有趣的事情是,你可以用这个算法来解决材料研究的空白,人们应该研究但目前还没有研究的东西。”

研究结果发表在7月3日的《自然》杂志上。这项名为“非监督词嵌入从材料科学文献中获取潜在知识”的研究的主要作者是Vahe Tshitoyan,他是伯克利实验室的博士后研究员,目前在谷歌工作。伯克利实验室的科学家Kristin Persson和Gerbrand Ceder与Jain一起领导了这项研究。

“这篇论文证明,科学文献的文本挖掘可以揭示隐藏的知识,而纯粹的基于文本的提取可以建立基本的科学知识,”Ceder说,他还在加州大学伯克利分校的材料科学和工程系任职。

Tshitoyan说,这个项目的动机是难以理解大量发表的研究。他说:“每个研究领域都有100年的研究文献,每周都有数十项新的研究出来。”“研究人员只能访问其中的一小部分。我们想,机器学习能在无人监督的情况下,不需要人类研究人员的指导,利用所有这些集体知识吗?”

“国王王后+男人= ?”

该团队收集了1922年至2018年间在1000多份期刊上发表的论文的330万篇摘要。Word2vec将这些摘要中大约500,000个不同的单词中的每一个转换成一个200维的向量,或者一个200个数字的数组。

“重要的不是每一个数字,而是用这些数字来看看单词之间是如何相互关联的,”Jain说。他领导着一个团队,利用理论、计算和数据挖掘相结合的方法,致力于发现和设计用于能源应用的新材料。例如,你可以用标准向量数学减去向量。其他研究人员已经证明,如果你在非科学文本来源上训练算法,并从“国王减去王后”中得到向量,你会得到与“男人减去女人”相同的结果。’它会在你不告诉它任何事情的情况下找出你们之间的关系。”

同样地,当训练材料科学文本时,该算法能够仅根据摘要中词语的位置及其与其他词语的共现来学习科学术语和概念的含义,如金属的晶体结构。例如,正如它可以解出“king-queen + man”这个方程一样,它也可以解出“铁磁- nife + IrMn”这个方程的答案是“反铁磁”。

当把每种化学元素的矢量投影到二维空间时,Word2vec甚至能够学习元素周期表上元素之间的关系。

提前数年预测发现

如果Word2vec如此智能,它能预测出新型热电材料吗?一种好的热电材料可以有效地将热转化为电,并且是由安全、丰富和易生产的材料制成的。

伯克利实验室的研究小组选取了该算法提出的最佳热电候选词,根据其词矢与词“热电”的相似度对每种化合物进行排序。然后他们进行计算来验证算法的预测。

他们发现,在前10个预测中,所有预测都计算出了略高于已知热电学平均值的功率因数;前三名候选人的功率因数在已知热电学的95%以上。

接下来,他们测试了该算法是否可以“在过去”进行实验,即只给出2000年之前的摘要。同样,在最高的预测中,有相当一部分出现在后来的研究中——是随机选择材料的四倍之多。例如,利用2008年以前的数据训练出的前五种预测中,有三种已经被发现,剩下的两种含有稀有或有毒元素。

结果令人惊讶。“说实话,我没想到这个算法能如此预测未来的结果,”Jain说。“我曾想,也许这个算法可以描述人们以前做过的事情,但却无法找出这些不同的联系。我很惊讶,我不仅看到了预测,还看到了预测背后的推理,比如半赫斯勒结构,这是目前热电学中非常热的晶体结构。”

他补充道:“这项研究表明,如果这一算法更早出现,一些材料可能在几年前就被发现了。”随着研究的进行,研究人员公布了该算法预测的前50种热电材料。他们还会发布embeddings这个词,如果人们想要搜索更好的拓扑绝缘体材料,他们需要这个词来制作自己的应用程序。

接下来,Jain说团队正在开发一个更智能、更强大的搜索引擎,让研究人员以更有用的方式搜索摘要。

这项研究是由丰田研究所资助的。其他共同作者包括伯克利实验室研究员John Dagdelen、Leigh Weston、Alexander Dunn和Ziqin Rong,以及加州大学伯克利分校研究员Olga Kononova。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。