如今,有超过三分之一的药品是基于自然界的活性物质合成的,在众多植物、细菌和真菌中出现的次级天然物质可以消炎,可以抵御病原体,甚至可以防止癌细胞的生长。但是,利用自然界药柜提供的财富和识别新天然物质是非常耗费时间、金钱与精力。德国耶拿大学(University of Jena)的一个研究小组已经开发出一种程序,可以更快、更容易地识别小活性物质分子,研究人员将他们的新方法称为COSMIC(小分子鉴定的信心)。
为了找出生物样本(如植物提取物)中包含的物质,研究人员使用质谱法对样本进行分析。在这个过程中,分子被分解成碎片,其质量被确定。耶拿大学的Sebastian Böcker教授表示,研究所开发的CSI:FingerID分子搜索引擎能够专门搜索与这些片段相匹配的分子结构。
目前有巨大的数据集合,其中有数十亿的质谱数据,这些数据来自于对生物样本的数百万次分析,其中绝大多数都没有识别出其结构。这就是COSMIC发挥作用的地方,使这些尚未识别分子中的大部分结构能够被自动破译。
为此,研究人员使用机器学习方法。首先,将检查中样品的质谱与现有的结构数据进行比较。结果会得到像谷歌搜索那样的一个或多或少的可能命中列表。这个方法表明,人们对首先发现的命中列表的反应,实际上是在衡量其对正在寻找的结构有多大信心。为了做到这一点,COSMIC确定了一个分数,以评估建议命中的质量,并推断它是正确的还是错误的。
研究已经能够证明方法有效。他们研究了来自小鼠消化系统的质谱数据,寻找迄今未知的胆汁酸。为此,研究组构建了28000多个理论上可能的胆汁酸结构,并与小鼠微生物组的测量数据进行比较。通过COSMIC的后续分析,共发现了11种新的、以前完全未知的胆汁酸结构。此后,其中的两个已经用专门合成的参考样本进行了确认。
研究人员强调:研究首先表明这个新方法是可靠的。其次,COSMIC具有潜力,可以大大加快寻找新的和有趣的物质,因为筛选可以完全自动进行,不需要任何人工努力,而且时间非常短。研究人员预计,在未来几年内,将有可能通过这种方式弄清成千上万的新分子结构。
题为High-confidence structural annotationof metabolites absent from spectral libraries的相关研究论文发表在《自然-生物科技》上。