本文收集了环烷烃类、环烯烃类、酮类、胺类、醚类、酯类等有机物在固定相角鲨烷和SE-30上的气相色谱保留指数,并采用基于Monte Carlo采样的模型集群分析(Monte Carlo sampling model population analysis,MCS MPA)方法进行了定量结构-色谱保留指数相关关系建模方法的比较研究。对于两种固定相上的有机化合物,分别采用不同的分子描述符予以表征,分子描述符的选择基于统计学与遗传算法。采用的建模方法包括多元线性回归(multivariate linear regression,MLR)、支持向量机回归(support vector machine,SVM)、径向基函数人工神经网络方法(radial basis function artificial neural networks,RBF ANN),通过所建模型预测了独立外部测试样本的气相色谱保留指数。研究结果表明,对于本文所研究的数据,SVM回归方法的建模效果优于MLR与RBF ANN方法。
本文选取了部分有机物致敏性和部分有机物极性参数两组数据,均采用ADMEWORKS ModelBuilder软件计算并选择出合适的结构描述符,进而采用K最近邻和K均值聚类法对两组数据进行分类,然后对分类后的数据分别运用多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘(Partial Least Squares,PLS)和人工神经网络(Artificial Neural Networks,ANN)方法进行QSPR建模研究。结果表明,无论采用何种分类方法都可以在一定程度上改善模型预测的结果。对于两组样本,有机物分子结构差异较小的样本集模型预测结果较优,非线性模型的预测结果整体优于或相当于线性模型的预测结果。
选取了258个苯酚类化合物的生物毒性数据,通过软件ADMEWORKS Model Builder的计算,选出7个结构描述符作为样本的结构参数,用稳健诊断方法剔除24个奇异样本,分别采用K最近邻方法和K均值聚类方法对剩余的234个样本数据进行分类,对分好的每一个类分别随机选择外部测试集,并用球型排除算法划分训练集和内部测试集,然后运用多元线性回归(Multiple Linear Regression,MLR)、偏最小二乘(Partial Least Squares,PLS)和人工神经网络(Artificial Neural Networks,ANN)方法进行预测模型的建立,计算结果表明,非线性模型的预测结果优于线性模型,有管理的分类方法(K nearest neighbors method,KNN)的预测结果优于无管理的分类方法(K均值聚类法)。