深度學習在對映選擇性預測方面展現出了巨大潛力,現有預測模型通常需要大量穩態結構描述符以及大規模數據,並面臨描述符選擇的困難。引入基於準過渡態(quasi transition state, qTS)的描述符提供了一種緩解這些挑戰的可能途徑🤸🏽♀️。然而描述符選擇的挑戰仍然存在⚈。為此李誌銘🪳、張俊良教授團隊提出了一種基於類過渡態通用描述符(universal descriptor, UD)的新型小數據機器學習模型(UD-qTS),將兩個非對映異構類過渡態之間的關鍵屬性差別,包括類過渡態單點能(ESP)🤷🏿、前沿分子軌道能量(EFMO)和核心原子電荷(QATOM)🩵,作為通用描述符。該模型有效性已用脯氨酸及其衍生物催化的分子間aldol反應以及Pd催化的Negishi反應進行了驗證💂🏽♀️。僅用小維度描述符集(12個描述符🏌🏽♀️,其中3個實驗變量、9個理論通用描述符)、小數據量訓練數據(分別為143和30個反應)👍🏻🧑🏽🎄,以及Matlab內嵌的簡單前饋神經網絡(aldol反應為兩個隱藏層🖱、5+2個隱藏神經元,Negishi反應為一個隱藏層♻️👨🏿🍼、6個隱藏神經元)進行擬合,外部測試的MAE可低至0.187 kcal/mol,R2高至0.897👱🏿♂️,與大數據量機器學習模型相當。此外在該模型中,他們還首次提出了一種使用笛卡爾力來糾正類過渡態和真實過渡態之間差異的新方法。這種UD-qTS策略避免了繁瑣的大規模描述符探索和篩選,可操作性🔯,為小數據驅動的對映體選擇性預測提供了一種高效的選擇🧛🏽♀️🙅🏽♀️。鑒於訓練模型原理類似🙃♜,該模型也可用於有機化學反應中其他選擇性的預測,如化學選擇性和區域選擇性等⛓。當然💇♀️,與大數據量的機器模型相比,由於訓練樣本容量不夠大,模型難以兼顧擬合與預測能力,繼續拓展訓練樣本容量,覆蓋更多反應條件、底物和催化劑,可以預見模型表現會有進一步的提升。
https://doi.org/10.1016/j.xcrp.2024.102043
(文/李誌銘🥒、張俊良教授團隊)