科研人不担心有机物命名不规范了 有机化合物的命名( 二 )

科研人不担心有机物命名不规范了 有机化合物的命名
文章插图

图示:Struct2IUPAC Transformer模型 。 (来源:论文)
验证步骤:使用 OPSIN , 可以验证生成的化学名称 , 以确保这些名称对应于正确的结构 。 可以检测到生成器的故障并且不会显示错误的名称 。

科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

图示:验证步骤 。 (来源:论文)
模型的优缺点优点1:Struct2IUPAC 模型准确率达 98.9%
为了验证模型的质量 , 研究人员从测试集中随机抽取了 100,000 个分子 。 SMILES 到 IUPAC 名称转换器以验证步骤运行 , 在测试集中的 100,000 个随机分子的子集上实现了 98.9% 的准确度 。
「我们已经证明 , Transformer 可以精确解决算法问题 , 为软件开发提出了一个新范式 。 推翻了以前普遍认为不应该将它们用于此类问题的观念 。 在机器翻译中 , 用同义词替换一个单词是很有可能的 , 而在我们的任务中 , 一个错误的符号会导致一个错误的分子 。 然而 , Transformer 成功地完成了这一任务 。 」Sosnin 补充道 。
优点2:IUPAC2Struct 模型准确率达 99.1%
研究人员在测试集上将 IUPAC 与 SMILES Transformer 模型 (IUPAC2Struct) 与基于规则的工具 OPSIN 进行了比较(表 1) 。 IUPAC2Struct 转换器实现了 99.1% 的准确率 , OPSIN 执行了 99.4% 。
表1:具有不同光束大小的 100, 000 分子测试集上模型的准确度 (%) 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

缺点:具有大量标记(寡聚体、肽等)的分子在我们的数据集中代表性不足 , 这可能是此类大分子性能下降的一个原因 。
尽管模型的准确度在非常大的分子上不超过 50% , 但发现了一些有趣的复杂分子示例 , 这些示例正确生成了 IUPAC 名称 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

图示:Transformer 生成正确名称的两个挑战分子示例 。 (来源:论文)
此外 , 非常小分子的性能明显下降 。 例如:甲烷 , 可能是 Transformer 使用了一种自注意力机制来分析输入序列中标记之间的相关性 。 对于超短序列 , 很难掌握 token 之间的关系 。
在线可用新的解决方案已经在 Syntelly 平台上实现 , 并可在线使用 。 研究人员希望他们的方法可以用于化学符号之间的转换 , 以及其他与技术符号相关的任务 , 例如数学公式的生成或软件程序的翻译 。
研究人员表示:「令人惊讶的是 , 我们基于神经的解决方案性能 , 可与基于规则的软件相媲美 。 」
使用小攻略在介绍之前 , 小声明一下:仅代表个人试用的感受 , 更专业的同学 , 应该会有更多的收获~
期刊论文提到「目前还没有用于结构到名称翻译的开源工具 。 」
首先 , 打开在线开源网址:
https://app.syntelly.com/molecules/1 , 左侧菜单栏有很多功能选项 , 在这里选择「Individual」选项 , 点击搜索框 , 进入画板 。 输入需要命名的有机化合物结构 , 以甲苯(C7H8)为例 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

点击「calculate」 , 即可得到甲苯的 SMILES:Cc1ccccc1 , 以及 IUPAC 名称:methylbenzene 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

期刊论文里提到:「可以将分子从 SMILES 表示转换为 IUPAC 名称 , 反之亦然 。 」
在这里输入 SMILES/IUPAC , 同样点击「calculate」 , 即可得到甲苯结构及其对应的 SMILES/IUPAC 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

除此以外 , 该工具还自带超大数据集库 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

还有收录的已发表的期刊论文中有机化学结构命名 。 当然还可以自行上传新论文 pdf 。
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

还可预测化学反应:
科研人不担心有机物命名不规范了 有机化合物的命名

文章插图

更多功能解锁 , 小伙伴们自己 Get 吧~
有机化合物命名的历史在有机化学的初级阶段 , 化合物的命名并没有共同的规则 。 1919年国际纯粹与应用化学联合会(IUPAC)成立 , IUPAC 出版有机化学命名法 , 俗称「蓝皮书」 。 提供了有关化合物明确名称的指南 。

推荐阅读