ニューラルネットワークによる有機塩素化合物の発ガン性の予測

田辺 和俊, 松本 高利


Return

1 緒 言

化学物質の生物に対する毒性、大気・水・土壌などの自然環境条件における分解性や蓄積性、および生物体内における蓄積性や濃縮性など、化学物質の有害性を評価するために、定量的構造活性相関(Quantitative Structure Activity Relationship、QSAR)の手法を用いた研究が行われている[1]。また、化学物質の有害性を予測するシステムが開発されているが、性能はいずれも不十分である。例えば、米国のNIEHSによる発ガン性の公開テストの結果では、CASE [2 - 6]、TOPKAT [7 - 10]、REPAD [11]、COMPACT [12]、FALS [13 - 15] などのシステムはいずれも60%台の低い成績であった [16]。このように既存のシステムの性能が低い原因としては、化学構造と有害性データとの間に線形関係を仮定し、重回帰分析のような単純な手法で解析しているためと考えられる。すなわち、化学物質の構造と有害性と間の関係は線形関係のように単純なものではなく、きわめて複雑な関係と考えられるからである。したがって、既存のシステムに採用されている重回帰分析ではなく、もっと複雑な関係を強力に解析する手法を用いれば、既存のシステムよりも性能が高い予測手法を開発できる可能性がある。
そのような複雑な関係の解析に有効な手法としてニューラルネットワークがあり、化学物質の有害性予測にニューラルネットワークを用いた研究はかなり多い[17 - 27]。しかし、それらの研究では多種多様の記述子を用いて芳香族化合物やハロゲン化合物の発ガン性データをニューラルネットワークで解析しているが、予測的中率はいずれも80%以下である。それに対し、我々は記述子として化学物質の構造中の結合数だけを用いて有機塩素化合物の発ガン性との相関をニューラルネットワークで解析し、83%の予測的中率を得た[28]。この方法では記述子が化学構造から簡単に求まるので、迅速な予測が可能である反面、このような単純な記述子ではこれ以上の予測的中率の向上は困難である。たとえば、ベンツピレンをはじめとする縮合多環芳香族炭化水素化合物(PAH)ではベンゼン環の結合様式の違いによる多数の構造異性体があるが、このような構造の違いによる発ガン性の有無を前回の方法で説明することは不可能である。そこで前回のこの問題点を改良するために今回は新たな記述子を検討した。

2 方 法

前報の結果と比較するために、発ガン性のデータはNTP (National Toxicology Program) のデータベース [29] から抽出した同じ有機塩素化合物41種類のデータを用いた。ニューラルネットワークもFigure 1に示すように、3層ニューラルネットワークの入力層に化合物の記述子を入力し、出力層には各化合物の発ガン性の有無を教師データとして入力した。
構造活性相関に用いられる記述子には、化合物の構造的・物理化学的・電子的・立体的・トポロジカル的性質など、多種多様の記述子がある。今回は構造異性体の構造の違いを反映する記述子としてGibbs標準生成自由エネルギー、イオン化ポテンシャル、LUMOエネルギー、HOMO-LUMOのエネルギー差、Connolly体積、分子量、log Pの7種類を検討した。記述子としては他にハードネスや電気陰性度なども考えられるが、今回は量子化学計算から直接得られる上記の記述子を検討した。これらの記述子は化合物の構造的・物理化学的・電子的・立体的性質を代表しており、構造異性体で値が異なるため、そのような異性体の発ガン性の有無を説明できる可能性がある。そこで、これらの記述子の内、log PとGibbs標準生成自由エネルギーはCS ChemDraw 5.0で計算し、イオン化ポテンシャル、LUMOエネルギー、HOMO-LUMOのエネルギー差、Connolly体積はMOPAC93 revision2で計算した。なお、その際にこれらの記述子の値は化合物の立体構造に依存するので、各化合物についてCONFLEXを用いて最安定エネルギーの構造を求め、その構造について記述子の値を計算した。それらの記述子の計算値をTable 1に示す。


Figure 1. Structure of the neural network. Thickness of a connected line shows the absolute value of the weight.

Table 1. Seven descriptors, output values of neural networks, and predicted and experimental carcinogenicity
Molecular NameMWLogPGFEIPLUMOHLGapCVOutputPredExp
Aldrin364.913.50222.69.81-0.3169.492264.080.9997++
Allyl chloride76.531.6350.310.470.66811.14170.551.0000++
Benzyl chloride126.592.59108.59.700.0759.773113.630.9874++
Carbon tetrachloride153.822.43-87.312.38-1.11711.26184.740.9989++
Chlordane409.784.2071.410.06-0.5289.53275.940.9997++
9-Chloro-10-chloromethyl-anthracene261.155.23348.48.28-1.2926.99207.340.9997++
Chloroethane64.511.30-46.011.151.49812.65161.151.0000++
Chloroform119.381.71-80.711.77-0.30311.46871.000.9908++
7-(Chloromethyl)benza(a)-anthracene276.765.70500.68.29-1.0417.253233.160.9997++
9-Chloromethyl-10-methyl-anthracene240.735.12368.78.10-1.0867.018215.160.9997++
3-Chloro-2-methylpropene90.551.7350.210.100.62210.7287.040.9981++
p,p'-DDD320.045.77220.09.56-0.2699.286249.350.9708++
p,p'-DDE318.025.81288.09.34-0.4808.862247.290.9997++
1,4-Dichlorobenzene147.003.1178.69.52-0.2169.308112.570.0000-+
1,2-Dichloroethane98.961.59-57.911.420.68512.10275.410.9991++
Dichloromethane84.931.08-66.311.390.59511.98555.750.8398++
1,2-Dichloropropane112.992.00-51.911.380.68412.06794.320.9432++
1,3-Dichloropropane112.991.80-49.511.371.02012.39294.670.9080++
Heptachor373.323.59121.09.98-0.4819.501251.080.9997++
Hexachlorobenzene284.785.37-7.79.91-1.0408.872158.070.2534-+
Hexachloroethane236.743.21-99.912.18-0.96711.215136.991.0000++
Methylallyl chloride90.552.0042.59.490.79210.2889.790.9924++
Mirex545.546.33161.011.19-0.26810.923342.850.9996++
Pentachloroethane202.292.71-93.311.87-0.68111.188121.641.0000++
1,1,1,2-Tetrachloroethane167.852.40-78.911.79-0.48511.308105.350.9996++
1,1,2,2-Tetrachloroethane167.852.22-86.611.66-0.07411.581108.031.0000++
Tetrachloroethylene165.832.42-18.69.90-0.4379.46494.181.0000++
1,1,2-Trichloroethane133.401.90-72.311.570.17011.73791.870.9930++
Trichloroethylene131.392.251.89.96-0.0619.89583.820.9963++
1,2,3-Trichloropropane147.432.29-63.911.440.76012.202119.670.9979++
Vinyl chloride62.501.6641.910.210.85611.06652.900.7704++
Chlorobenzene112.562.54100.19.560.1559.71696.600.1442--
1-Chlorobutane92.572.20-29.111.131.51112.64496.380.8568+-
DDT354.496.33213.39.59-0.5189.069265.760.0000--
1,2-Dichlorobenzene147.003.1178.69.60-0.1429.46112.350.0000--
1,1-Dichloroethane98.961.43-60.311.420.58212.00475.070.1897--
Hexachlorocyclopentadiene272.772.02-27.99.61-1.4118.194167.050.0000--
Lindane290.834.20-86.011.36-0.15111.212203.400.0186--
Pentachlorobenzene250.344.8113.99.79-0.8908.896149.090.0987--
1,1,1-Trichloroethane133.402.10-67.011.99-0.26511.72788.660.0041--
Vinylidene chloride96.941.8321.410.190.37910.56968.320.1498--
MW: molecular weight, LogP: octanol-water partition coefficient, GFE: Gibbs standard free energy of formation (kJ mol-1), IP: ionization potential (eV), LUMO: LUMO energy (eV), HLGap: HOMO-LUMO energy gap (eV), CV: Connolly volume (m-30), Output: output value of neural network, Pred: predicted carcinogenicity, Exp: experimental carcinogenicity.

これらの記述子はその値が-0.9〜0.9の範囲に収まるように以下の式で規格化した後、ニューラルネットワークに入力した。
規格化値=[(x - xmin)/(xmax - xmin)] × 1.8 - 0.9
ここでx、xmin、xmaxは記述子の規格化前の値、41種類の化合物中でのその記述子の最小値と最大値である。出力層には発ガン性ありの化合物に1.0、なしの化合物に0.0の値を教師データとして入力した。ニューラルネットワークのユニット数は入力層7、中間層3、出力層1、バイアスなし、収束条件は0.1、学習定数はε=5.0、α=0.5とし、エラーバックプロパゲーション法で学習を行った。中間層のユニット数については、2の時はニューラルネットワークが収束せず、また、4以上では予測的中率が低下したので、今回は中間層のユニット数は3を用いた。

3 結果と考察

この方法による発ガン性予測の性能を求めるためにleave-one-out testを行った。すなわち、全41種類の化合物の内40種類を学習データとしてニューラルネットワークに学習させ、収束後のニューラルネットワークに残りの1つを未学習データとして入力して出力層の結果から発ガン性の予測値を求め、実測値と比較するという操作を全ての化合物について繰り返した。その際、出力層の値が0.5以上なら発ガン性あり、0.5以下なら発ガン性なしと判定した。その結果はTable 1に示すように、全化合物41種類の内で3種類を除く38種類について実測値に一致し、本法による予測的中率は93%となった。
この予測的中率は既存の予測システムの性能を凌ぐものであり、今回採用した7種類の記述子とニューラルネットワークを組み合わせた予測手法の威力を実証している。それに対し、既存の予測システムでは前記のように単純な重回帰分析が用いられるので、このような解析手法の違いが的中率の違いの理由と考えられる。ただし、既存の予測システムの性能テストに用いられた化合物は本研究で用いた有機塩素化合物のように限定したものでなく、非常に広範囲の化合物である。したがって対象の化合物が異なるので単純な比較はできないが、対象の化合物群ごと今回のような方法を開発すれば、広範囲の化合物についても的中率の高い予測システムが開発できると考えられる。
本研究の予測的中率が既存のシステムより高くなったもう1つの理由は記述子である。既存のシステム、たとえばCASE [2 - 6]、TOPKAT [7 - 10]、COMPACT [12]、FALS [13 - 15] では結合や部分構造の数や有無のようなきわめて単純な記述子が用いられている。しかし、上記のようにこのような単純な記述子では限界があることは明白である。
今回用いた記述子の数値はTable 1に示すようにそれぞれの記述子単独では発ガン性の有無との相関は認めにくいので、7種類の記述子が関連しあって発ガン性の有無を説明していると考えられる。Figure 1には学習収束後のニューラルネットワークについてネットワークの重みの絶対値の大きいものを太線で、絶対値の小さい重みを細線で示すが、どの記述子も発ガン性の説明には不可欠であることが分かる。実際に記述子を6種類に減らして解析したが、90%以上の予測的中率は得られなかった。したがって、今回用いた7種類の記述子が必要最小限の記述子であると考えられる。
また、これらのことから、今回用いた7種類の記述子により40種類の化合物のデータを学習させる際の過学習の可能性は低いものと考えられる。多変量解析の場合に統計的に有効なモデルを組み立てるにはデータ数の3分の1以下の未知数を用いるべきとされている。今回ではデータ数40に対し、未知数であるネットワークの結合数は24であり、過学習の可能性が考えられる。しかし、一般に過学習の場合は未知数を減らすと予測率が向上するとされている。今回は上記のようにそのような結果は得られなかったので、過学習の可能性は低いと考えられる。
ただし、今回用いた記述子に関しては、化合物の構造的・物理化学的・電子的・立体的・トポロジカル的性質など多種多様な記述子があり、その中で今回用いた7種類の記述子が最適であるとは断言できない。多種多様な記述子の中から最適の組み合わせを抽出する問題は多くの研究者が取り組んでいる最先端の研究課題である[30, 31]。
今回用いた記述子を求めるためにはChemDrawやMOPACによる計算が必要であり、前報で用いた結合数を記述子とする予測ほどの迅速な予測は困難である。特に内部回転異性体が存在する化合物では、今回用いたイオン化ポテンシャル、LUMOエネルギー、HOMO-LUMOのエネルギー差、Connolly体積などの記述子の値が回転異性体間で異なるので、最安定の回転異性体を探索する操作が必要になる。しかし、内部回転異性体が多数存在する化合物について最安定の異性体を探索するにはかなり時間がかかる場合があり、この点も今後の課題である。
我々は今後、(1)発ガン性の有無だけでなく定量的な予測を行うこと、(2)発ガン性以外の種々の有害性の予測を行うこと、(3)有機塩素化合物以外の広範囲の化合物の予測を行うこと、などを目指している。(1)については発ガンの強さ(TD)を教師データとしてニューラルネットワークで解析することにより定量的な予測が可能である。(2)については我々は既に変異原性と生分解性の予測を検討した[32, 33]が、化学物質の有害性にはその他に様々なものがある。(3)が今後の最大の課題である。汎用性の高い予測システムを開発するためにはあらゆる化合物を1個のニューラルネットワークで解析することになり、当然、予測的中率の低下が予想される。的中率を向上させるためには化合物を分類し、それぞれにニューラルネットワークを構築することになるが、その場合の分類方法が課題である。

4 結 論

ニューラルネットワークを用いて有機塩素化合物の発ガン性のデータを解析した。記述子として分子量、log P、Gibbsエネルギー、イオン化ポテンシャル、LUMOエネルギー、HOMO-LUMOのエネルギー差、Connolly体積の7種類を取り上げ、41種類の化合物について分子軌道法のプログラムを用いてこれらの記述子を計算した。3層構造のニューラルネットワークの入力層にこれらの記述子を、出力層にはNTPの発ガン性データを教師データとして入力して、エラーバックプロパゲーション法で学習を行った。leave-one-out testを行った結果、予測的中率は93%となり、既存のシステムより高性能の予測手法を開発することができた。

参考文献

[ 1] 松尾昌季, QSAR(定量的構造活性相関)手法を用いた化学物質の手計算による毒性予測, Life-Science Information Center (1999).
[ 2] G. Klopman, J. Am. Chem. Soc., 106, 7315 (1984).
[ 3] G. Klopman, A. N. Kalos, H. S. Rosenkrantz, Mol. Toxicol., 1, 61 (1987).
[ 4] H. S. Rosenkratz, G. Klopman, Mutagenesis, 5, 333, 425 (1990).
[ 5] G. Klopman, Quant. Struct.-Act. Relat., 11, 176 (1992).
[ 6] G. Klopman, H. S. Rosenkrantz, Mutation Res., 305, 33 (1994).
[ 7] K. Enslein, P. N. Craig, J. Environ. Pathol. Toxicol., 2, 115 (1978).
[ 8] K. Enslein, P. N. Craig, J. Toxicol. Environ. Health, 10, 521 (1982).
[ 9] K. Enslein, T. R. Lander, M. E. Tomb, W. G. Landis, Teratogenesis Carcinogenesis Mutagenesis, 3, 503 (1983).
[10] K. Enslein, V. K. Gombar, B. W. Blake, Mutation Res., 305, 47 (1994).
[11] R. Benigni, Mutagenesis, 6, 423 (1991).
[12] D. F. V. Lewis, C. Ioannides, D. V. Parke, Mutagenesis, 5, 433 (1990).
[13] I. Moriguchi, S. Hirono, Q. Liu, Y. Matshushita, T. Nakagawa, Chem. Pharm. Bull., 38, 3373 (1990).
[14] I. Moriguchi, S. Hirono, Y. Matsushita, Q. Liu, I. Nakagome, Chem. Pharm. Bull., 40, 930 (1992).
[15] I. Moriguchi, S. Hirono, Q. Liu, I. Nakagome, Quant. Struct. Act. Relat., 11, 325 (1992).
[16] R. Benigni, Eur. Symp. Quant. Struct.-Act. Relat., 11th (1997), p.293.
[17] D. Villemin, D. Cherqaoui, A. Mesbah, J. Chem. Inf. Comput. Sci., 34, 1288 (1994).
[18] X-H. Song, M. Xiao, R-Q. Yu, Comput. Chem., 18, 391 (1994).
[19] S. Hatrik, P. Zahradnik, J. Chem. Inf. Comput. Sci., 36, 992 (1996).
[20] M. Vracko, J. Chem. Inf. Comput. Sci., 37, 1037 (1997).
[21] G. Gini, M. Lorenzini, J. Chem. Inf. Comput. Sci., 39, 1076 (1999).
[22] R. Vendrame, R. S. Braga, Y. Takahata, D. S. Galvao, J. Chem. Inf. Comput. Sci., 39, 1094 (1999).
[23] M. J-Heravi, F. Parastar, J. Chem. Inf. Comput. Sci., 40, 147 (2000).
[24] S. C. Basak, G. D. Grunwald, B. D. Gute, K. Balasubramanian, D. Opitz, J. Chem. Inf. Comput. Sci., 40, 885 (2000).
[25] D. Bahler, B Stone, C. Wellington, D. W. Bristol, J. Chem. Inf. Comput. Sci., 40, 906 (2000).
[26] F. R. Burden, M. G. Ford, D. C. Whitley, D. A. Winkler, J. Chem. Inf. Comput. Sci., 40, 1423 (2000).
[27] F. R. Burden, D. A. Winkler, Chem. Res. Toxicol., 13, 436 (2000).
[28] 松本高利, 田辺和俊, JCPE Journal, 11(1), 29 (1999).
[29] http://ntp-server.niehs.nih.gov/
[30] 岡田孝, 第24回情報化学討論会講演要旨集 (2001), p.13.
[31] 鈴木孝弘, 黒田泰史, 第2回グリーン・サステイナブルケミストリーシンポジウム2001よこはま講演要旨集 (2001), p.121.
[32] 松本高利, 田辺和俊, 久保 隆, 浦野紘平, 化学とソフトウエア, 22, 127 (2000).
[33] 松本高利, 田辺和俊, 化学とソフトウエア, 22, 55 (2000).


Return