在合成有機(jī)分子和天然產(chǎn)物中,結(jié)構(gòu)的確定是一項(xiàng)非常具有挑戰(zhàn)性的工作。結(jié)構(gòu)上接近的異構(gòu)體和非對(duì)映異構(gòu)體在1D NMR光譜中的差異非常細(xì)微,要想?yún)^(qū)分它們得耗費(fèi)大量的時(shí)間和精力。

利用計(jì)算機(jī)進(jìn)行核磁譜圖識(shí)別給研究者提供了大量幫助,其原理是基于密度泛函理論(DFT)計(jì)算所有不確定結(jié)構(gòu)非對(duì)映異構(gòu)體的核磁位移,并使用相關(guān)系數(shù)、平均絕對(duì)誤差(MAE)和校正平均絕對(duì)誤差(CMAE)等參數(shù)將這些預(yù)測(cè)結(jié)果與已公布的光譜數(shù)據(jù)進(jìn)行比較。其中,DP4分析是一種特別強(qiáng)大的工具,它不僅可以預(yù)測(cè)分子的立構(gòu)化學(xué)特性,還可以給出每個(gè)可能結(jié)構(gòu)是否正確的概率,在天然產(chǎn)物及藥物合成中已有成功應(yīng)用。

自發(fā)布以來(lái),DP4的計(jì)算過(guò)程已經(jīng)進(jìn)行了極大的簡(jiǎn)化,用戶(hù)輸入越來(lái)越少。但是,最耗費(fèi)用戶(hù)精力的仍然是NMR譜圖的歸屬問(wèn)題,這不僅非常耗時(shí)費(fèi)力,而且容易出錯(cuò)。

少數(shù)商用軟件,如Mestrelab?Mnova,雖然為1H NMR譜圖提供了歸屬算法,但無(wú)法對(duì)原始NMR數(shù)據(jù)進(jìn)行自動(dòng)處理和歸屬。

 

成果介紹

基于以上分析,劍橋大學(xué)Jonathan M. Goodman教授課題組針對(duì)1H和13C NMR原始數(shù)據(jù),提出了一種譜圖自動(dòng)處理和歸屬方法DP4-AI,它可以自動(dòng)進(jìn)行有機(jī)分子立構(gòu)化學(xué)特性和結(jié)構(gòu)歧義的預(yù)測(cè)。研究發(fā)現(xiàn)NMR-AI可以在1分鐘左右的時(shí)間處理完NNR原始數(shù)據(jù),而此前同樣的任務(wù)大約需要8個(gè)小時(shí),速率提升了480倍,每天可以處理的分子數(shù)量增加了60倍,這使得高通量NMR譜圖分析成為可能,為通過(guò)機(jī)器學(xué)習(xí)發(fā)現(xiàn)新的分子結(jié)構(gòu)鋪平了道路。

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!

DP4-AI的結(jié)構(gòu)和計(jì)算流程

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖1. (a)DP4-AI的結(jié)構(gòu);(b)具有立體化學(xué)結(jié)構(gòu)的示例可以使用集成在PyDP4中的DP4-AI進(jìn)行自動(dòng)預(yù)測(cè)。

DP4-AI包含了NMR-AI和PyDP4兩部分,其中NMR-AI負(fù)責(zé)處理用戶(hù)輸入的NMR原始數(shù)據(jù),并進(jìn)行化學(xué)位移的歸屬,PyDP4則對(duì)這一歸屬正確與否的概率進(jìn)行計(jì)算,從而自動(dòng)闡述分子的立體化學(xué)結(jié)構(gòu)。

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖2. DP4-AI的整體結(jié)構(gòu)。原始的NMR數(shù)據(jù)將會(huì)進(jìn)行一系列處理,首先得到實(shí)驗(yàn)性的多重位移值和積分值,然后程序?qū)Ψ肿又械拿總€(gè)原子利用DFT計(jì)算其化學(xué)位移,并將其歸屬到實(shí)驗(yàn)性位移上,最后程序會(huì)計(jì)算每個(gè)非對(duì)映異構(gòu)體進(jìn)行這種歸屬的DP4概率。

DP4-AI對(duì)NMR數(shù)據(jù)處理的流程如下:當(dāng)用戶(hù)輸入原始NMR數(shù)據(jù)后,程序首先對(duì)相和基線(xiàn)進(jìn)行校正,然后從中提取出各個(gè)峰的化學(xué)位移值,并計(jì)算積分值,利用DFT方法計(jì)算每個(gè)原子的化學(xué)位移并對(duì)其進(jìn)行歸屬,最后DP4分析這種歸屬的概率,同時(shí)給出物質(zhì)的化學(xué)結(jié)構(gòu)。

 

DP4-AI中NMR峰的提取過(guò)程

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖3. 峰的提取過(guò)程。如果峰值低于二階導(dǎo)數(shù)的閾值(橙色)且高于強(qiáng)度閾值(藍(lán)色),則提取該峰。最終選擇的峰以綠色表示。

在提取1H NMR位移峰時(shí),使用原始數(shù)據(jù)的一階和二階導(dǎo)數(shù)進(jìn)行操作:如果峰的一階導(dǎo)數(shù)為零,二階導(dǎo)數(shù)最小,而且峰值在二階導(dǎo)數(shù)的幅度閾值以上以及第二閾值以下時(shí),則提取該峰。以這種方式進(jìn)行峰值提取時(shí)可以將兩個(gè)閾值設(shè)置得非常低,在盡可能多地過(guò)濾掉噪聲的情況下,盡可能少的丟失信號(hào)。

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖4. 多重峰提?。ㄋ{(lán)色)示例和反卷積模型(橙色)。信號(hào)峰用青色突出顯示,確定為噪聲的峰用紅色突出顯示。

為了避免將噪聲誤認(rèn)為信號(hào)峰,研究者開(kāi)發(fā)了一種利用目標(biāo)模型選擇來(lái)消除噪聲的算法。間隔小于18 Hz的提取峰被分組在一起,形成了一個(gè)信號(hào)區(qū)域,對(duì)于每個(gè)區(qū)域,使用多個(gè)廣義洛倫茲線(xiàn)形函數(shù)構(gòu)建線(xiàn)形模型,每個(gè)區(qū)域模型中的參數(shù)進(jìn)行迭代變化,直到模型的積分收斂到相應(yīng)光譜區(qū)域1%以?xún)?nèi)。如果模型的貝葉斯信息低于閾值,則認(rèn)為這些參數(shù)描述的是噪聲,相應(yīng)的峰會(huì)被刪除。

 

DP4-AI中NMR峰的歸屬

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖5. 使用分配概率矩陣M將計(jì)算出的位移分配給實(shí)驗(yàn)峰。(a)將模擬計(jì)算出的光譜中的峰(藍(lán)色)分配給實(shí)驗(yàn)光譜中的峰(橙色);(b)計(jì)算矩陣M,并計(jì)算最佳歸屬(青色);(c)在此示例中找到的最終歸屬。

研究者認(rèn)為DP4-AI開(kāi)發(fā)過(guò)程中最具挑戰(zhàn)性的工作是歸屬算法的開(kāi)發(fā),該算法將分子的每個(gè)非對(duì)映異構(gòu)體中的原子分配給光譜中提取到的峰。研究者采用GIAO方法對(duì)不同峰進(jìn)行分配,歸屬算法的核心是計(jì)算分配概率矩陣M,該矩陣的元素Mij是計(jì)算出的化學(xué)位移i對(duì)應(yīng)于實(shí)驗(yàn)峰值j的概率。矩陣M通過(guò)匈牙利線(xiàn)性和最小化方法找到最可能的分配結(jié)果。

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖6.?根據(jù)振幅概率密度函數(shù)的二階導(dǎo)數(shù)的最小值(右側(cè)),峰(左側(cè))按振幅分組(落在虛線(xiàn)之間)。在該模擬示例中,結(jié)構(gòu)中的碳原子數(shù)為9,計(jì)算每個(gè)組下邊界上方的峰的累積總和,分配給每個(gè)組的權(quán)重是結(jié)構(gòu)中碳原子的數(shù)量除以該值,然后將最大的權(quán)重固定為1。

13?C NMR的算法還考慮了實(shí)驗(yàn)峰的幅度。M中的每一個(gè)元素Mij乘以一個(gè)從實(shí)驗(yàn)峰值j的幅度得出的權(quán)重因子Aj。13?C NMR光譜中的峰通常分為三組,可以通過(guò)幅度來(lái)區(qū)分:噪聲、1-原子信號(hào)和對(duì)應(yīng)于多個(gè)等效碳原子的峰。為了捕獲這種變化,研究者估算了譜圖中峰值幅度的概率密度函數(shù),當(dāng)峰值中該函數(shù)的二階導(dǎo)數(shù)的最小值位于其振幅之間時(shí),這些峰分為一組,然后使用每組中的峰數(shù)和結(jié)構(gòu)中預(yù)期的碳原子數(shù)來(lái)計(jì)算振幅權(quán)重。

 

DP4-AI的性能評(píng)估

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖7. 用于評(píng)估DP4-AI性能的47個(gè)分子結(jié)構(gòu)。分子AT3、TS3A、TS4和NL1A僅有相應(yīng)的1H NMR數(shù)據(jù),所有其它分子均具有1H和13C NMR數(shù)據(jù);分子JB7、JB11、JB5和JB8的譜圖分別在溶劑甲醇、苯、DMSO和甲醇中得到,而所有其它分子則在CDCl3中得到。

研究者為了評(píng)估NMR-AI的性能,構(gòu)建了由47個(gè)分子(每個(gè)分子平均3.49個(gè)立構(gòu)中心)組成的測(cè)試組,其中包含了各種結(jié)構(gòu)的碳骨架。測(cè)試組中包含了天然產(chǎn)物、合成中間體和天然產(chǎn)物的碎片結(jié)構(gòu),以盡可能包含更多類(lèi)型的有機(jī)分子結(jié)構(gòu)。

為了描述DP4-AI進(jìn)行NMR預(yù)測(cè)的誤差概率,研究者測(cè)試了四個(gè)不同的統(tǒng)計(jì)模型,結(jié)果發(fā)現(xiàn)單區(qū)域3高斯模型得出的預(yù)測(cè)誤差最優(yōu)。

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖8. 圖7中化合物的正確預(yù)測(cè)率,DP4-AI(橙色),成對(duì)歸屬算法(藍(lán)色)。

在最高的測(cè)試?yán)碚撍较拢珼P4-AI的可靠性與耗時(shí)的成對(duì)歸屬算法相似,而后者需要一位訓(xùn)練有素的化學(xué)家才能完成。在測(cè)試數(shù)據(jù)集中,正確有效的進(jìn)行立體化學(xué)歸屬的概率約為3×10-8,表明DP4-AI的表現(xiàn)非常可靠。最令人印象深刻的是,DP4-AI在32和64個(gè)非對(duì)映異構(gòu)體中正確對(duì)分子NP1和NP2的立構(gòu)化學(xué)特性進(jìn)行了歸屬。

解放化學(xué)家雙手!自動(dòng)解譜軟件問(wèn)世,60秒處理一個(gè)數(shù)據(jù)!解析核磁,以后就交給人工智能吧!
圖9. NMR-AI處理NNR數(shù)據(jù)的速率對(duì)比。

NMR-AI可以在1分鐘左右的時(shí)間處理完NNR數(shù)據(jù),而在此之前同樣的任務(wù)大約需要8個(gè)小時(shí),這相當(dāng)于每天處理的分子數(shù)量可以增加60倍。

 

小結(jié)

為了快速有效的處理NMR原始數(shù)據(jù),劍橋大學(xué)Jonathan M. Goodman教授課題組提出了一種譜圖自動(dòng)處理和歸屬方法DP4-AI,這種方法由NMR-AI和PyDP4兩部分組成,用戶(hù)只需要輸入原始的NMR數(shù)據(jù),程序就會(huì)自動(dòng)提取各個(gè)峰值,并對(duì)其進(jìn)行歸屬,直接給出最可能的分子結(jié)構(gòu)以及這種歸屬的概率。研究者構(gòu)建了由47個(gè)分子組成的測(cè)試組,發(fā)現(xiàn)程序正確有效的進(jìn)行立體化學(xué)歸屬的概率約為3×10-8,并正確對(duì)分子NP1和NP2的立構(gòu)化學(xué)特性進(jìn)行了歸屬。僅需要1分鐘的時(shí)間,NMR-AI就可以處理完NNR數(shù)據(jù),與之前的方法相比,速率提高了480倍,每天處理的分子數(shù)量可以增加60倍。

原文鏈接:

https://pubs.rsc.org/en/content/articlehtml/2020/sc/d0sc00442a

相關(guān)新聞

微信
微信
電話(huà) QQ
返回頂部