Manipulation of Chemical Structure Information
II. Chemical Structure Plotting System Based on Superatoms

Cheng Wentang, Yu Feibai, Liu Xiang, Yuan Yongwen
(State Key Lab of Fine Chemicals, DaLian University of Technology,DaLian 116023)

Abstract  A plotting system for chemical structures containing superatoms has been introduced in this paper. Based on the defined template superatoms, the system makes the integral plotting of bulk atomic group, arbitrary dot-connecting and splice possible. Various coding EXPORT & IMPORT on the atom-level and superatom-level are provided. Furthermore, different kinds of codings can be converted in this system.
Key words  Superatom, Structure plotting, Structure coding
摘要 本文介绍了一套基于超原子的化学结构绘制系统,该系统根据定义的模板超原子,实现了大块原子团的整块绘制,绘制可任意地点接、拼接。系统提供了原子级、超原子级的多种编码出口、接口,也可用该系统实现不同编码文件的转换。
关键词 超原子 结构绘制 结构编码


有机化学结构信息处理
II. 基于超原子的结构图形输入系统

程文堂 俞飞白 刘祥 袁永文
(大连理工大学精细化工国家重点实验室 大连)

1 概述
    目前存在的结构绘制软件大部分都只是提供原子级的结构编码,如MDL Information System, Inc.ISIS[ 1 ]STN Express[ 2 ]等,而许多用户却需要超原子级的编码,如计算机辅助合成需要超原子级的合成子,图谱解析需要超原子级的谱学单元结构,QSAR研究需要超原子级的性质活性单元,我们自己的专利结构检索系统也需要超原子级的结构编码以提高检索效率。基于这些要求,我们在我们自己研究的“基于环的化学结构的转换算法”基础上开发了这套结构绘制系统,以期能满足这些用户的需要。
2 系统设计原理

clsAtom

 

 

ID as Integer Atoms Number
Label as String*2
Atoms ElementSymbol
Bond as Integer
BondType to Upper Atom
Pos as Integer
Position Number in SuperAtom

clsSuperAtom


 

ID as Integer SuperAtoms Number
Name as String*20
SuperAtoms Name
Bond as Integer
SuperBond Type to Upper SuperAtom
UpperSuperAtomPos as Integer
Position of Upper SuperAtom Bonding to this SuperAtom
OwnPos as Integer
Position of Bonding
Atom as Collection
Atom Collection Collects SuperAtom
    

clsMolecule Name as String*20 Molecules Name
SuperAtom as Collection
SuperAtom Collection Collects composing Molecule

    面向对象程序设计(OOP)以其特有的优越性成为目前最普遍的软件设计和开发方法[ 3 ] ,因此,我们也利用这种方法设计、开发我们的这套图形输入系统。首先,把原子(结构节点)视为一个基本类,从它导出超原子(结构子图)作为二级导出类,再从超原子类导出分子(结构图)作为最终的三级目标类,各个类的定义如上:
    其次,把对原子、超原子、分子处理的各种方法定义在各自的类中。根据这些类建立的对象,可以方便地处理超原子结构了。所有单个原子和其键的处理(包括图形的绘制、结构的转换、存储等)都在clsAtom中进行。在clsSuperAtom中,只需简单的定义超原子的操作(包括超原子的绘制、结构转换、存储等),其具体的实施都从clsAtom那儿继承来。分子的操作也只需简单地从clsSuperAtom中继承来。这样不同等级结构处理的分级隔离使原子、超原子、分子各自的改变对其他部分的影响都很小,甚至无影响,这使得程序的调试和修改就相对的独立简易了。
    我们的目标是最终能够得到超原子的结构编码,所以,我们事先在模板库中定义好模板超原子,作为超原子编码的结构单元;并且定义好超原子的连接键型,作为超原子的连接关系。用户绘制时有两种绘制方法,一种是直接从模板库中选模板超原子来一次绘制整个超原子,但由于系统定义和用户使用习惯的不同,用户一般很难按系统要求绘制正确的超原子,所以就有了另一种绘制方法,用户可以任意单个原子或小的超原子来组成更大的超原子。 无论是前一种方法还是后者,系统都需要校验超原子的正确性,一般都要重新组装超原子,以便形成正确的超原子结构编码。我们运用 “基于环的化学结构的转换算法”在系统的出口(Export)处进行结构转换,转换模块根据模板库中的目标超原子和用户定义的超原子键型来形成用户需要的超原子结构编码。
    我们这套系统主要是应用于我们的“中国化学专利检索系统”[ 4 ],所以,处理族性结构是我们这套系统的又一设计目标。目前,国外的检索系统(如:Markush DARC[ 5 ])对该类问题的处理主要是通过定义一套族性结构表述语言来表达,但它们大多都是针对普遍意义问题的,比较复杂。对于系统的使用,往往系统是主体,用户是客体,客体只有先学会系统主体的一大套定义规则才能使用系统,这对于不太熟悉计算机的化学工作者来说是较难的。我们的系统为了克服这一缺点,改变“系统主体,用户客体”软件模式,利用一些人工智能的知识,赋予了系统自学习的功能,用户可以以自己熟悉的表述方式来表达,系统通过对这些陌生词汇的学习、记忆,以后便能识别用户的表述规则了。这样用户成为了主体,系统变成了适应用户的客体,给用户特别是不太熟悉计算机的用户带来了许多方便。我们认为,这种变“系统主体用户客体”的模式为“用户主体系统客体”也是今后软件设计尤其是专业性特别强的软件设计应该借鉴的一条原则。
3 系统特点和功能
    首先,系统的设计是开放的,绘制分子结构的基本单元(原子节点、官能团节点、模板超原子节点、化学键)的定义都可以由用户根据自己需要增减、修订。其次,系统对结构的原始存储采用了二级存储,既保留了原子级节点的信息,又保留了超原子级的超级节点的信息,这对于形成原子级的结构信息表或是形成超原子级的结构信息表都是十分方便的。系统给出了几种结构信息连接表(如:紧缩连接表(Compact Connectivity  Table, CCT)、原子级线性连接表(Atom Linear Connectivity Table, ALCT)等)。根据用户需要,用户可以通过改变节点库来产生自定义的结构信息文件形式。超级连接表的形成由节点库中的基本节点来确定,用户绘制结构的过程中不必遵循特定的节点选取规则,可以以任意形式绘制分子(即用户可以组合超级节点或拆分超级节点),系统能自动识别、组建、区别节点库中给出的基本节点,并形成这些基本节点的超原子连接表。对于系统不能识别的子结构,用户只需一次训练系统,系统通过自学习,就能获得该知识。
    整个系统的设计以大多数不太精通计算机的化学工作者为对象,以满足不同研究者研究需要为宗旨,遵循简单化使用、方便用户的原则。
    本系统还是一个化学结构图形编辑系统,利用动态连接嵌入(OLE)或者裁剪板可以把编好的分子结构图嵌入到象字处理软件Word中去,或者直接存储为位图文件(.BMP)等多种图形文件形式。
    在软件的制作方面,系统完全按照Windows 95/NT 应用软件的标准设计,菜单、加速条、工具栏、状态条、对话框全部标准化,加上“谁叫谁到”的在线帮助,使本软件的使用非常方便、简单,这对于在大多数不太精通计算机的化学工作者来说,推广是比较容易的。(绘图主窗口见附图一)
4 结束语
    该系统对结构的处理尚处于二维图形结构阶段,这对于处理医药、生物大分子显然是不够的,我们拟在此基础上开发三维分子结构处理系统,以满足对分子立体构型、构象的处理。
    信息结构的生成只是结构信息处理的第一步,如何利用生成的结构信息实现结构检索,特别是到当今风靡全球的Internet上去检索,以及如何把国内的化学资源组织起来,提高我们的科研和生产效率是我们这套信息结构处理系统的下一步要急待解决的问题。

c9905101.gif (33686 bytes)
图1 绘图主窗口

5 参考文献
[1] ISISTM/Draw 2.14. MDL Information Systems, Inc. http://www.mdl.com
[2] STN Express V4.0. 1989-1996 American Chemical Society
[3]
汪成为,郑小军,彭木昌. 面向对象分析、设计及应用. ,国防工业出版社. 1992
[4]
俞飞白,程文堂,曲勇,李慧,刘祥. 中国专利化学结构数据库的开发研究. 第四届科学数据库与信息技术学术会议论文集(19988月,长春 第四集), 科学出版社 :129-131
[6]
袁身刚. DRAC系统——计算机化学的一个缩影. 有机化学. 1998. (8):289-299


98-11-25收稿,99-02-01修回