给几句话就能生成分子，看见分子也能生成描述，神秘的GoogleX把多模态-北方财富网

想象一下，医生写几个字描述一种专门用于治疗病人的药物，AI可以自动生成所需药物的确切结构这听起来像科幻小说，但伴随着自然语言和分子生物学交叉领域的进展，未来很可能成为现实传统上，药物创造通常依赖于人工设计和构建分子结构，然后可能需要花费十几亿美元和十几年时间才能将一种新药推向市场

最近，人们对使用深度学习工具来改进计算机药物设计很感兴趣，这个领域通常被称为化学信息学可是，这些实验中的大多数仍然只关注分子及其低级特征，如logP，辛醇/水分配系数等未来需要在更高层次上控制分子设计，通过自然语言轻松实现控制

来自伊利诺伊大学香槟分校和Google X的研究人员提出了两项新任务，以实现分子和自然语言转换的研究目标:1)为分子生成描述，2)在文本的指导下，从零开始生成分子。

如下图所示，文本引导分子生成的任务是创建一个与给定的自然语言描述相匹配的分子，这将有助于加速许多科学领域的研究。

在多模态模型领域，自然语言处理和计算机视觉的交叉得到了广泛的研究通过自然语言对图像进行语义级控制取得了一些进展，人们对多模态数据和模型越来越感兴趣

本研究提出的分子语言任务与V+L任务有一些相似之处，但也有几个特殊的困难:1)为分子创建注释需要大量的专业知识，2)因此，很难获得大量的分子描述对，3)同一分子可以有多种功能，需要多种不同的描述方式，这导致4)现有的评价指标(如BLEU)无法全面评价这些任务。

此外，为了全面评价分子描述或世代模型，提出了一个新的指标Text2MolText2Mol重新调整了检索模型的使用，以分别评估实际分子/描述和生成的描述/分子之间的相似性

多模态文本—分子表示模型MolT5

研究人员可以从互联网上抓取大量的自然语言文本例如，Raffel等人建立了一个基于爬行的公共数据集，其中包含超过700GB的干净的自然英语文本另一方面，我们也可以从锌—15等公共数据库中获得超过10亿个分子的数据集受最近大规模预训练进展的启发，本研究提出了一种新的自监督学习框架molt 5(molt 5，Molecular T5)，它可以利用大量未标记的自然语言文本和分子串

图3显示了MolT5的架构图在本研究中，首先使用T5.1.1的公共检查点之一初始化编码器—解码器变换器模型之后，他们以替换损坏的跨度为目标对模型进行预训练具体来说，在每个预训练步骤中，该研究对包含自然语言序列和微笑序列的迷你批次进行采样对于每个序列，研究人员会随机选择序列中的一些单词进行修改每个连续区间中被破坏的令牌被替换为标记令牌(如图3中的(x)和(y)所示)下一个任务是预测辍学跨度

分子可以被认为是一种语言，具有非常独特的语法直观地说，本研究的预训练阶段本质上是在来自两种不同语言的两个单语语料库上训练一个语言模型，两个语料库之间没有明确的对齐关系这种方法类似于多语种模型如mBERT，mBART的预训练由于mBERT和其他模型显示了出色的跨语言能力，本研究还预计MolT5预训练的模型将有助于文本到分子的翻译任务

经过预训练后，可以针对分子描述或生成对预训练模型进行微调(如图3的下半部分所示)在分子生成中，输入是描述，输出是目标分子的SMILES表示另一方面，在分子描述中，输入是某个分子的SMILES字符串，输出是描述输入分子的文本

实验结果

下表显示了分子描述测试的结果发现T5或MolT5在生成描述分子的逼真语言方面比《变形金刚》或《RNN》好得多

下图显示了不同模型输出的几个示例。

生成不同模型结果的示例。

总体而言，RNN模型在分子生成方面优于变压器模型，而大规模预训练模型在分子描述任务方面的表现优于RNN和变压器模型众所周知，扩大模型规模和预训练数据会导致性能的显著提高，但这项研究的结果仍然令人惊讶

例如，默认的T5模型(仅在文本数据上进行预训练)可以生成比RNN更接近真实值的分子，并且通常是有效的而且伴随着语言模型规模的扩大，这种趋势还在持续，因为770M参数的T5—large比60M参数的MolT5—small要好尽管如此，MolT5中的预训练稍微改善了一些分子生产结果，特别是在有效性方面

下图显示了模型的结果，并根据输入描述对其进行了编号发现MolT5比T5更能理解操作分子的指令

演示由不同模型生成的分子实例。

给几句话就能生成分子，看见分子也能生成描述，神秘的GoogleX把多模态

最近更新