|
|
使用AI快速获取分子的溶解关键参数|MDPI Liquids |
|
论文标题:AbraLlama: Predicting Abraham Model Solute Descriptors and Modified Solvent Parameters Using Llama
论文链接:https://www.mdpi.com/2673-8015/4/3/29
期刊名:Liquids
期刊主页:https://www.mdpi.com/journal/liquids
在化学研究中,精准获取分子的溶解参数对溶剂选择、溶解度预测等至关重要。本文的研究,借助AI技术开发出两款高效预测工具,为解决传统方法的痛点提供了新方案。
研究聚焦Abraham模型的核心参数——溶质描述符(E、S、A、B、V)和修正溶剂参数(e0、s0、a0、b0、v0),基于ChemLLaMA(专为化学信息学优化的LLaMA模型),开发了AbraLlama-Solute和AbraLlama-Solvent模型。
研究团队从UFZ-LSER数据库筛选出6852种化合物的实验溶质描述符,及122种纯溶剂的参数,经处理后用于模型训练。训练采用5折或10折交叉验证,历经20个epoch,最终模型在Hugging Face平台上线,支持通过SMILES字符串直接预测。

图例:使用正辛醇的溶剂参数计算的对数P值(N = 6852),比较测量值与预测值的Abraham溶质描述符。数据点按绝对误差着色。
性能上,AbraLlama-Solute表现亮眼,对溶质描述符的预测精度极高:V的R²达0.98、RMSE仅0.097,B的R²为0.96,即使是A也有0.85的R²,整体稳定性突出。AbraLlama-Solvent则可预测修正溶剂参数,其中a0的R²达0.81,但精度受溶剂在化学空间的位置影响——远离中心的复杂溶剂(如含N、S、F的化合物)误差较大,排除4个异常值后,a0的R²提升至0.883。
该研究不仅验证了大型语言模型在化学领域的潜力,更提供了实用工具,助力溶剂比较与替代,扩展了Abraham溶解方程的应用范围。未来团队将进一步扩展数据集,提升模型对复杂溶剂的预测能力。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。