2021年11月15日,中國醫學科學院藥物研究所天然藥物活性物質與功能國家重點實驗室汪小澗課題組聯合奇虎360人工智能研究院的鄧亞峰團隊在分析化學領域權威期刊Analytical Chemistry上以封面文章在線發表了題為“Cross-Modal Retrieval between 13C NMR Spectra and Structures for Compound Identification Using Deep Contrastive Learning”的論文,報道了基于人工智能跨模態深度對比學習方法建立的分子結構識別的CReSS系統,該研究對于未知分子結構,特別是天然產物分子的結構識別與糾錯具有重要意義。

分子結構識別是有機化學及天然產物化學的重要研究內容,通過核磁碳譜數據庫搜索獲得分子結構是分子結構識別研究的經典方法。但是,現有核磁碳譜數據庫的容量有限,通過傳統人工添加擴充碳譜數據庫耗時耗力,限制了分子結構識別研究的準確率和效率。本研究團隊通過前期基于圖像識別的圖譜信息提取系統SRCV,實現了從碳譜和氫譜中準確快速地提取數據,相關研究成果作為封面文章于2020年11月10日發表在計算化學領域權威雜志Journal of Chemical Information and Modeling。
本團隊基于前期研究從文獻中提取收集了大量核磁碳譜數據,并進一步創造性地采用人工智能跨模態深度對比學習方法建立核磁碳譜和分子結構式的跨模態表示模型,并基于向量檢索,在行業內首次建立了用于分子結構識別的CReSS系統。該系統基于計算生成的數據做大規模預訓練,并結合真實數據精調,可自主學習到核磁碳譜數據與分子結構之間的內在關系。對于千萬規模的分子結構底庫,采用四萬條碳譜數據進行識別測試,CReSS的平均準確率約為91.64%,平均耗時僅為0.114s。增加分子量過濾器可進一步提升CReSS的識別準確率,當分子量的容差范圍設置為5Da時,準確率達98.39%。目前,CReSS已支持在上億級的分子庫中進行化合物識別,且在分子結構識別與解析以及結構糾錯等研究領域具有廣泛的應用潛力。目前,CReSS系統已開放輔助分子結構解析研究。

該研究工作得到了國家重點研發計劃項目(No.2018AAA0100400)、中國醫學科學院醫學與健康科技創新工程(2021-1-I2M-028)和學科建設項目(201920200802)的資助。藥物所汪小澗副研究員和奇虎360人工智能研究院院長鄧亞峰為本文的共同通訊作者。汪小澗課題組楊卓碩士,楊敏健博士和鄧亞峰團隊的宋劍飛為共同第一作者。鄧亞峰團隊的么琳在模型構建及算法優化作出突出貢獻。
CReSS鏈接:http://cnmr.ai.360.cn/。
論文鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.1c04307
論文鏈接:https://pubs.acs.org/doi/10.1021/acs.jcim.0c01046