A Group of Autocorrelation Topological Index
from Vertex Degree of Molecular Topology

LONG Mingce, MENG Xianlin, WANG Peng**, YU Xiujuan, GUO Xiaoyan
(Department of Environmental Science & Engineering,
Harbin Institute of Technology, Harbin 150001, China)

Abstract A new group of autocorrelation topological index (At、Bt、Ct and Dt) was designed and developed based on the vertex degree of molecular topology and autocorrelation function of mathematics. The autocorrelation functions were calculated from the square root of the vertex degree、modified vertex degree and their combination, that is di and . The matrix description method and the algorithm of computer software have been developed for the new topological index calculation. The new autocorrelation topological index was only dependent on the molecular topology, not on the experiment as the traditional index. Good results have been made from the application of the autocorrelation topological index to the QSAR study of organic chemicals.
Key words Topological index, Vertex degree, Autocorrelation function, QSAR, Molecular topology
摘要 针对目前自相关拓扑指数的计算完全依赖于实验参数而存在的问题,以分子拓扑学点价和自相关函数研究为基础,将点价、修正点价及其组合:的平方根分别作为自相关函数中的f(i),设计开发出一组新的以点价计算为基础的自相关拓扑指数At、Bt、Ct和Dt。本文还对新的拓扑指数实现了矩阵化描述,并以此为基础开发出相应的计算机软件。将该类指数用于有机化合物分子QSAR研究,取得了良好的结果。
关键词 拓扑指数 点价 自相关函数 定量构效关系 分子拓扑学


一组来自点价的分子自相关拓扑指数

龙明策 孟宪林 王鹏** 于秀娟 郭晓燕
(哈尔滨工业大学环境科学与工程系 哈尔滨 150001)

    用分子拓扑指数方法进行定量构效关系(QSAR)研究具有严格准确、简单实用等优点。自相关拓扑指数(ATI)最早由Moreau和Broto提出,后被应用于QSAR研究[1-3]。笔者曾经设计采用乘方邻接矩阵法编写了自相关拓扑指数的计算程序[4],并对该指数计算所采用的范德华体积进行了修正[3],从而使ATI指数的计算实现了程序化,在一定程度上提高了该指数的选择性和预测结果的可信性。但目前自相关拓扑指数的计算通常是以构成该分子的原子的电负性和范德华体积等实验参数为基础,不同来源的实验参数数据的差异对计算结果影响较大。本文在以前工作基础上,从分子拓扑学点价研究出发,设计出一组新的点价自相关拓扑指数At、Bt、Ct和Dt,并对传统的邻接矩阵及距离矩阵的矩阵元输入进行了修正,编写了实用软件。新的拓扑指数的计算完全以分子拓扑图为基础,并考虑了对杂原子及不饱和键的修正,将其用于有机化合物分子QSAR研究,取得了良好结果。

1 点价自相关拓扑指数设计
1.1 自相关拓扑指数、点价及修正点价
    自相关拓扑指数是将自相关函数用于分子图拓扑空间[2],由下式计算得到:

   (1)

式中:i,j分别表示分子图中相距t个边的两个原子,f(x)表示构成该分子的原子x的某种性质,t为指数的阶数。一般常用原子的范德华体积或电负性作为f(x),经计算得到F(t)用来表征分子的体积或电性,因此该类指数从本质上看还是通过实验获得的,存在对不同来源的参数可比性较差,数据不完全等缺点。
    Randic等[5]在研究枝链烷烃类有机物与其理化性质关系时,曾提出采用点价
di表征有机化合物分子的分支度和体积,依点价定义,则

   di=与i原子相连接的非氢原子的个数 (2)

    Kier和Hall为区分饱和键与不饱和键,提出了修正点价(记为),其定义为:

   (3)

式中ZV表示原子核最外层电子数,h表示该原子邻接(键合)氢的数目。进一步考虑杂原子的影响,提出了修正点价,其定义为:

   (4)

式中Z表示原子核外电子总数,ZV及h的定义同
1.2 点价自相关拓扑指数的定义

    研究表明,两种点价的组合可以表示更多的信息。根据分子轨道理论,一个与其它原子或基团结合的原子,其体积可以表示为点价组合的函数。 Kier等[5]采用20种基团的Bondi体积与建立了高度相关的方程(r=0.99),因此可认为给出了原子体积信息。本文定义为原子性质f(x),由式(1)计算得出自相关拓扑指数F(t)定义为At,用来表征给定分子的体积信息,即

   (5)

式中,
    Mulliken电负性定义为原子电离势和电子亲和能的平均值,它可区分不同价态原子的电负性。研究表明, 点价组合(N为主量子数)与19种化合物的Mulliken电负性高度相关(r=0.988),可以认为代表了原子的电负性信息。本文定义作为原子性质f(x),计算得到自相关拓扑指数F(t)定义为Bt,用以表征给定分子的电性信息,即

   (6)

式中,,其中N为原子i的主量子数。
    同时,把修正点价及点价
di的平方根也分别作为原子性质f(x),计算得到自相关拓扑指数F(t)分别定义为Ct和Dt,用以表征给定分子的分支结构信息,即

   (7)
   (8)

式中,对于;对于

2 点价自相关拓扑指数的计算程序设计
2.1 邻接矩阵与距离矩阵的输入规则
    邻接矩阵和距离矩阵是对分子图最基本的数字化描述。本文把分子图看成“色图”,对矩阵元素的输入进行修正,使之能更准确地表征和分辨出分子中的不饱和键及杂原子。对邻接矩阵元aij的输入规定为:
    (1)当顶点i和j不相邻时,aij=0;
    (2)当i和j相邻时,视顶点i和j所代表的2个原子间的化学键类型定义aij:单键aij=1,双键aij=0.5,叁键aij=0.33;
    (3)当i=j(为矩阵对角线上元素)时,修正杂原子,aii=给定编号(表1),碳原子的aii仍为0。

表1 分子图中杂原子的编号、和N值
杂原子种类 N0 N1 N2 N3 N-O O0 O1 S0 S1 F Cl Br I
编号 1 2 3 4 5 6 7 8 9 10 11 12 13
5 4 3 2 6 6 5 6 5 3.5 7 7 7
dV 5 4 3 2 6 6 5 0.67 0.56 20 0.78 0.26 0.16
N值 2 2 2 2 2 2 2 3 3 2 3 4 5

    表1列出了不同种类的杂原子所对应的原子编号、修正点价、以及主量子数N值。其中N0表示氮原子上连有0个氢,N-O为硝基氮原子,余类推。表1中氟原子的采用实验修正值[5]。这样,描述乙醛分子的邻接矩阵为:

   (9)

矩阵对角线上元素aii为0代表碳原子,6则代表羰基氧原子。
    采用类似方法定义距离矩阵:
    当顶点i和j不相邻,矩阵元dij=i与j间最少边数;
    当i和j相邻或i=j,修正方法同邻接矩阵。
    依此定义,描述乙醛分子的距离矩阵为:

   (10)

2.2 点价自相关拓扑指数的算法
    依据分子拓扑学原理,分子拓扑指数的计算可通过对描述分子图的邻接矩阵和距离矩阵的处理来实现。由于邻接矩阵的输入相对简单,本文采用以邻接矩阵输入分子图信息,经程序自动将其转化为距离矩阵,最终以距离矩阵为基础计算点价
di和修正点价,并进一步计算自相关拓扑指数。点价自相关拓扑指数计算的程序设计思想如图1所示。具体算法如下:
Ⅰ. 将输入的邻接矩阵,变换为相应的距离矩阵。
    (1)将邻接矩阵A标准化(即取消对不饱和键及杂原子的修正),对A进行数学变换[6]得标准距离矩阵AL
    (2)将AL矩阵复制到邻接矩阵A,并保留矩阵A的对角线元素及对不饱和键的修正,只修改非对角线数值为零的元素dii,即可得到与邻接矩阵A相对应的距离矩阵D。
Ⅱ. 由距离矩阵计算点价及修正点价。
    (1)计算点价
di:点价di为第i行小于或等于1元素(除对角线元素外)的个数。
    (2)计算修正点价:先判断对角线元素dii是否为零,是零则依定义,此dii所对应的为碳原子,等于此行小于或等于1的元素(不含dii)的倒数之和,再取整。若则表示该顶点代表的是杂原子,依表1的给定编号查出对应该杂原子的值。
    (3)计算修正点价:先判断对角线元素是否为零,是则求法与计算相同;否则为杂原子,依表1的编号查出对应该杂原子的值。
Ⅲ. 计算原子的f(x),并依公式(1)求出各阶自相关拓扑指数。
    (1)由点价计算f(x)值。分别计算
di值,依定义这些值的平方根即为计算各类自相关拓扑指数的f(x),其中N值可由表1查得。
    (2)计算零阶指数(t=0)。即构成该分子的所有原子所对应的f(x)值的平方和。
    (3)非零阶指数的阶数t与距离矩阵中的元素值dij对应(若dij为小数则取整为1),即t=dij,dij所处于的行和列分别为i和j,依公式(1),所有等于t的f(x)与f(j)乘积的和即为第t阶指数。由于距离矩阵的对称性,该操作只对该矩阵对角线下元素进行即可。由此可求出各阶点价自相关拓扑指数。

   
图1 自相关拓扑指数计算的程序流程图

    上述算法已采用C++语言编写,并已调试成功,经多种类型结构分子校核,表明程序编制准确可靠。编程计算的优点是快速、准确,对较大的分子高阶指数手工计算几乎不可能。

表2 以点价自相关拓扑指数为结构参数构建的QSAR方程

活性参数及数据来源

构建的QSAR 方程

统计学参数

N

R

F

S

生物富集系数BCF 值 [7]

LogBCF=0.034A5-0.240C0+
0.514D0+0.759

20

0.96

63.4

0.20

辛醇/水分配系数logKow [7]

LogKow=0.092A2-0.329C1+
0.394D0+0.241

271

0.86

253.1

0.73

生物毒性指标EC50 [7]

LogEC50=0.064A2+0.275B0+
0.252 D2+1.529

56

0.90

74.7

0.50

生物降解速度常数K值 [8]

K=0.044A1-0.094A5+
4.483 B0 -4.201B2-0.811

12

0.99

88.1

0.067

3 点价自相关拓扑指数在有机分子QSAR研究中的应用
    将本文定义的点价自相关拓扑指数用于有机分子的定量构效关系研究。对每个待试分子分别计算0-5阶点价自相关拓扑指数,可分别得到的At、Bt、Ct、Dt等4类24个拓扑指数;将由这些指数构成的向量用来描述有机分子结构,采用多元线性逐步回归方法在指数与性质/活性之间建立起相关方程,即可得到有机分子的QSAR模型。表2列出了采用本文提出的点价自相关拓扑指数构建的4个QSAR方程及相应的统计检验指标;表3详细给出了20种硝基芳烃化合物的点价自相关拓扑指数,它们的生物富集系数(BCF)实测值[7],QSAR预测值及残差。结果表明,点价自相关拓扑指数可以准确地表征有机分子的结构特征,与其宏观性质具有良好的线性关系。采用本文提出的点价自相关拓扑指数构建的QSAR方程优于文献报道结果。

表3 硝基芳烃化合物的点价自相关拓扑指数与生物富集系数(BCF)

序号

化合物

A5

C0

D0

实验值

预测值

残差

1

硝基苯

11.832

37.000

18.000

1.470

1.542

-0.072

2

邻氯硝基苯

11.832

38.778

20.000

2.290

2.144

0.146

3

间氯硝基苯

18.888

38.778

20.000

2.420

2.385

0.035

4

对氯硝基苯

19.142

38.778

20.000

2.460

2.393

0.067

5

2,3-二氯硝基苯

18.888

40.556

22.000

3.010

2.987

0.023

6

2,4-二氯硝基苯

18.000

40.556

22.000

3.020

2.957

0.063

7

2,5-二氯硝基苯

20.665

40.556

22.000

2.920

3.048

-0.128

8

3,5-二氯硝基苯

25.943

40.556

22.000

3.010

3.228

-0.218

9

邻硝基甲苯

11.832

39.000

20.000

2.280

2.090

0.190

10

间硝基甲苯

19.315

39.000

20.000

2.310

2.346

-0.036

11

对硝基甲苯

18.243

39.000

20.000

2.370

2.309

0.061

12

4-氯-2-硝基甲苯

20.773

40.778

22.000

3.020

2.998

0.022

13

2-氯-6-硝基甲苯

18.888

40.778

22.000

3.090

2.934

0.156

14

2,3-二甲基硝基苯

19.315

41.000

22.000

2.860

2.895

-0.035

15

3,4-二甲基硝基苯

25.726

41.000

22.000

2.840

3.114

-0.274

16

邻二硝基苯

51.664

56.000

24.000

1.020

1.428

-0.408

17

间二硝基苯

55.413

56.000

24.000

1.870

1.556

0.314

18

对二硝基苯

37.000

56.000

24.000

0.700

0.927

-0.227

19

2,4-二硝基甲苯

61.824

58.000

26.000

2.310

2.324

-0.014

20

2,6-二硝基甲苯

55.413

58.000

26.000

2.440

2.105

0.335

4 结论
    以分子拓扑学点价和自相关函数计算为基础,开发出一组新的点价自相关拓扑指数。与目前应用的以范德华体积和电负性为基础的传统自相关拓扑指数比较,新的指数具有不受数据来源条件限制,表达分子信息客观全面,选择性好,简并度低等优点。
    以描述有机化合物分子图的邻接矩阵和距离矩阵为基础,对不饱和键和杂原子的矩阵元素输入进行修正,完成了点价自相关拓扑指数的计算机程序设计。该程序采用C++语言编写,并已调试成功。
    有机化合物分子点价自相关拓扑指数与其宏观性质之间具有良好的相关关系。本文工作为进一步开展有机化学品生物活性预测及安全性评价的计算机软件开发奠定了基础。

5 参考文献
[1] Devillers J, Chambon P, Zakarya D et al. Chemosphere, 1986, 15(8):993-1002.
[2] 黄庆国, 王晓栋, 王连生. 环境科学学报,1996, 16(2):195-202.
[3] 王鹏, 苏建成, 陈春云. 中国环境科学,1998,18(4):306-309.
[4] 王鹏, 苏建成, 单俊杰. 化学通报,1998,(10):40-42.
[5] 王连生, 支正良. 分子连接性与分子结构活性. 北京:中国环境科学出版社, 1992: 142-145, 161-163, 304.
[6] Muller W R, Szymanski K, Knop J V et al. Journal of Computational Chemistry, 1987, l8(2):170-173.
[7] 王连生. 分子结构、性质与活性. 北京:化工出版社,1997:13, 27-40.
[8] 于秀娟, 王鹏,龙明策. 环境科学学报, 2000,(增刊):93-96.


龙明策 男,23岁,硕士生,从事计算机化学研究。
哈尔滨工业大学校理学研究基金资助项目(9906731-050)。**联系人 E-mail:pwang73@yahoo.com

2000-11-09收稿,2001-01-08修回