ニューラルネットワーク入力パラメータの感度解析と偏微分係数解析を用いた赤外線吸収強度に敏感な分子結合パラメータの抽出
― フロン類の赤外吸収強度 ―

福田 朋子, , 松本 高利, 田辺 和俊, 長嶋 雲兵, 青山 智夫


Return

1 はじめに

近年、地球環境保全の問題から環境適応型の材料の開発が望まれている。とりわけ、発泡剤、冷媒、洗浄剤として用いられてきたフロンに替わる代替フロン物質の開発は最重要課題の1つである。しかし、フロンは成層圏のオゾン層の破壊だけでなく、物質中にある炭素?フッ素結合に伴う赤外線の吸収により地球温暖化現象をもたらしているといわれている。そのため、この代替フロンの開発には短寿命かつ赤外線の吸収が低い物質の開発が必要となってくる。代替フロン物質の開発では探索対象が炭素数2のエタン置換体から炭素数3のプロパン置換体に拡大しているが、それに伴って候補物質の数は爆発的に増大し、たとえば炭素数3のプロパン置換体でフッ素および塩素を含む化合物の総数は二千以上に上る。このような莫大な数の候補物質をすべて合成し、分解寿命や赤外線吸収強度などの特性を実験的に調べることは不可能である。そこで、このような莫大な候補物質について特性を計算機で予測し、候補物質を絞り込むことが有効な手段となる。
量子化学を用いた理論的な赤外吸収強度計算法を用いて、実測の吸収強度を理論的に求めることは、通常容易なことではない。非経験的分子軌道法を用いた計算法では、非常に多くの計算時間と人手を要する。もともと、赤外吸収強度は分子振動に伴う双極子モーメントの変化の自乗で決まる物理量であるため、異性体化合物など三次元構造が異なると吸収強度のパターンが異なってくる。そのため様々な異性体の計算を行う必要があり、さらにその存在比にしたがった平均化が必要となる。分子が大きくなると理論的計算量は指数関数的に増加する。他方、C-Fは赤外吸収が大きく、C-Cは小さいといった定性的な経験則が古くから知られている。すでに松本らは、C=C, C-C, C=O, C-O, C-H, C-F, C-Cl, O-Hの8種類の結合の種類とその数を入力としてニューラルネットワークに学習させ、Leave-One-Out法で検証したところ、赤外吸収強度の推算が観測誤差内で可能であることを報告している[1] 。ニューラルネットによる赤外吸収強度の推算は分子軌道法を用いた理論的計算法に比べ演算量がすくない。そのため非常に経験的であるが、注意深く用いるならばその有用性は高い。
本研究は、松本らが用いた(不完全な)分子の結合の種類とその数と赤外吸収強度の関係[1] をニューラルネットワークに学習させ、その入力データである結合パラメータが、学習を終了したニューラルネットが出力する赤外吸収強度に与える影響をパラメータスキャン法[2]と偏微分係数解析[3, 4]という異なる2つの方法を用いて調べたものである。つまり、本論文は実験の報告ではなく、有限のデータの学習を完了したニューラルネットワークに蓄積された経験則の抽出を意図したものであり、抽出された経験則の妥当性について、ここでは議論しない。
神部らは水質検査データを用いた河川の流域の分類問題において、偏微分係数解析が主成分分析とほぼ同等な傾向を抽出することを報告している[5]。本研究はフィッテイング問題への偏微分係数解析の応用である。

2 入力データと計算方法

本研究で用いたデータは、松本らの報告[1]で用いられたものと全く同じである。すなわち、赤外線吸収強度のデータはNIST/EPAの気相赤外スペクトルデータベース(Gas Phase Infrared Database Version 1.0)[6]からフロン代替物質に想定しうるフッ素原子を含む鎖状化合物44種類を抽出した。これら44種類の含フッ素化合物について地球温暖化に関係すると思われる赤外線波数領域をフッ素化合物に特有なC-Fの強い吸収が観測される領域の1500-500cm-1と想定し、この領域についての赤外線吸収帯の面積強度を算出した(Table 1)。 NIST/EPAのデータは独自の方法で規格化がなされており、そのため、面積強度は1500-500cm-1 のサンプル点の強度を直線で結び、台形公式により算出した。

Table 1. Bond Information of Freon Alternative and Intensity
No.Chemical NameChemical FormC=CC-CC=OC-OC-HC-FC-ClO-HInt.
1Carbon tetrafluorideCF4000004004.04
2TrichloromonofluoromethaneCCl3F000003104.61
3Ethane, 1,1-difluoro-C2H4F2010042005.97
4Methane, chlorodifluoro-CHClF2000012106.50
5Decane, 1-fluoro-C10H21F0900211006.96
6Ethene, tetrafluoro-C2F4100004006.86
7Methane, trifluoro-CHF3000013008.88
8Methane, chlorotrifluoro-CClF3000003109.16
9Ethane, hexafluoro-C2F60100060010.63
102,2,3,3,3-Pentafluoro-1-propanolC3H3F5O0201250114.78
11Ethene, fluoro-C2H3F1000130016.77
12Ethane, 2,2-dichloro-1,1,1-trifluoro-C2HCl2F30100132017.16
13Ethanol, 2,2,2-trifluoro-C2H3F3O0101230117.51
14Acetic acid, trifluoro-, ethyl esterC4H5F3O20212530117.79
15Hexafluoro-1,5-pentanediolC5H6F6O20402460218.48
16Acetic acid, trifluoro-C2HF3O20111030119.48
17Methane, fluoro-CH3F0000310020.22
19Ethane, chloropentafluoro-C2ClF50100051021.04
202,2,3,3-Tetrafluoro-1-propanolC3H4F4O0201340121.15
211H,1H,7H-Dodecafluoro-1-heptanolC7H4F12O06013120121.62
222-Propanol, 1,1,1,3,3,3-hexafluoro-C3H2F6O0201160121.62
23Ethene, 1,1-difluoro-C2H2F21000220022.03
25Butyric acid, heptafluoro-, butyl esterC8H9F7O20612970024.39
26Octanoic acid, pentadecafluoro-C8HF15O207110150124.75
27DichlorodifluoromethaneCCl2F20000022025.78
28Ethane, 1-chloro-1,1-difluoro-C2H3ClF20100321027.23
29Methane, dichlorofluoro-CHCl2F0000112031.39
309-H-Hexadecafluorononanoic acidC9H2F16O208111160131.86
312-Propanone, 1,1,1,3,3,3-hexafluoro-C3F6O0210060033.86
32Ethane, 1,1,2-trichloro-1,2,2-trifluoro-C2Cl3F30100033034.53
33Butanoic acid, heptafluoro-, ethyl esterC6H5F7O20412570035.74
34DichlorotetrafluoroethaneC2Cl2F40100042037.19
35Ethane, 1,1,2,2-tetrachloro-1,2-difluoro-C2Cl4F20100024037.97
36Heptafluoro-2,3,3-trichlorobutaneC4Cl3F70300073040.10
37Ethyl perfluorooctanonateC10H5F15O208125150040.03
411,1,1,3-TetrachlorotetrafluoropropaneC3Cl4F40200044041.45
42Ethane, 1,1,1-trichloro-2,2,2-trifluoro-C2Cl3F30100033048.77
431H,1H,9H-Hexadecafluoro-1-nonanolC9H4F16O08013160169.70
441,1,1-Trifluoro-2-propanolC3H5F3O0201430192.42

Table 2. Normalized Bond Information and Intensity
No.C=CC-CC=OC-OC-HC-FC-ClO-HInt.
10.1000.1000.1000.1000.1000.5170.1000.1000.414
20.1000.1000.1000.1000.1000.4590.2790.1000.428
30.1000.2790.1000.1000.5170.3840.1000.1000.457
40.1000.1000.1000.1000.2790.3840.2790.1000.466
50.1000.6960.1000.1000.9000.2790.1000.1000.474
60.2790.1000.1000.1000.1000.5170.1000.1000.473
70.1000.1000.1000.1000.2790.4590.1000.1000.503
80.1000.1000.1000.1000.1000.4590.2790.1000.507
90.1000.2790.1000.1000.1000.6040.1000.1000.525
100.1000.3840.1000.2790.3840.5640.1000.2790.565
110.2790.1000.1000.1000.2790.4590.1000.1000.581
120.1000.2790.1000.1000.2790.4590.3840.1000.583
130.1000.2790.1000.2790.3840.4590.1000.2790.586
140.1000.3840.2790.3840.5640.4590.1000.2790.588
150.1000.5170.1000.3840.5170.6040.1000.3840.593
160.1000.2790.2790.2790.1000.4590.1000.2790.599
170.1000.1000.1000.1000.4590.2790.1000.1000.604
190.1000.2790.1000.1000.1000.5640.2790.1000.609
200.1000.3840.1000.2790.4590.5170.1000.1000.610
210.1000.6040.1000.2790.4590.7640.1000.2790.612
220.1000.3840.1000.2790.2790.6040.1000.2790.612
230.2790.1000.1000.1000.3840.3840.1000.1000.615
250.1000.6040.2790.3840.6960.6380.1000.1000.628
260.1000.6380.2790.2790.1000.8180.1000.2790.630
270.1000.1000.1000.1000.1000.3840.3840.1000.635
280.1000.2790.1000.1000.4590.3840.2790.1000.642
290.1000.1000.1000.1000.2790.2790.3840.1000.660
300.1000.6690.2790.2790.2790.8330.1000.2790.662
310.1000.3840.2790.1000.1000.6040.1000.1000.670
320.1000.2790.1000.1000.1000.4590.4590.1000.672
330.1000.5170.2790.3840.5640.6380.1000.1000.677
340.1000.2790.1000.1000.1000.5170.3840.1000.682
350.1000.2790.1000.1000.1000.3840.5170.1000.684
360.1000.4590.1000.1000.1000.6380.4590.1000.691
370.1000.6690.2790.3840.5640.8180.1000.1000.691
410.1000.3840.1000.1000.1000.5170.5170.1000.696
420.1000.2790.1000.1000.1000.4590.4590.1000.717
430.1000.6690.1000.2790.4590.8330.1000.2790.763
440.1000.3840.1000.2790.5170.4590.1000.2790.800

松本たちの報告[1]でも述べられているように、吸収強度は化合物によって20倍以上の大きな違いが見られるため、吸収強度の値が0.2と0.8の間に入るように式(1)により規格化した。
規格化面積強度=[log(実測面積強度+1.0)/log(92.42+1.0)]×0.6+0.2(1)
この式で得られた各化合物の規格化された面積強度をTable 2に示す。
また、入力パラメータとして、44種類の含フッ素化合物に含まれるC=C,C-C,C=O, C-H, C-F, C-Cl, O-Hの8種類の分子内結合の数を用いた。これについても松本らの報告同様、各化合物におけるその度数の最小値と最大値が0.1と0.9の間に入るように各結合数を式(2)で規格化した数値を用いた。
規格化結合数=[log(結合数+1.0)/log(21.0+1.0)]×0.8+0.1    (2)
各化合物の規格化された結合数と強度をTable 2に示す。
本研究で用いた三層パーセプトロン型ネットワークは、入力層、中間層、出力層ニューロン数がそれぞれ9,4,1である。中間層ニューロン数は、再構築学習法[7]を用いて最適化した。学習の収束のための閾値は、誤差の最大値が0.005とした。
青山の開発した3層パーセプトロン型ニューラルネットワークの入力パラメータの偏微分係数解析法[3, 4]を新たに我々が開発中のパーセプトロン型ニューラルネットワークシミュレータNeco[2, 5, 8 - 13]に実装した。

3 学習の結果

Figure 1にLeave-One-Out法による予測結果と教師データの相関図を示した。回帰直線の傾きは1.09, 切片も-0.93で、偏差は0.97である。予測値と実測値は、非常によい一致を示していることが判る。


Figure 1. Correlation of Predicted and Observed Intensities by Leave-One-Out Test

誤差の平均値は,0.006であり、赤外吸収強度の単位での相対誤差は7%である。赤外吸収スペクトルの測定誤差は、約10%であると言われており、Leave-One-Outテストとはいえ、十分精度の高い予測ができている。

4 感度解析の結果 ― パラメータスキャン ―

本研究の感度解析に用いたパラメータスキャン法[2]とは入力データのある要素の出力への役割を調べるのにその要素の値をその定義域(0.0<x<1.0)で0.1づつ変化させ、それぞれの値についてニューラルネットワークに出力を予測させ、そのパラメータに関するニューラルネットワークの感度を調べる方法である。前節で述べた十分高い精度の学習によってえられたニューラルネットを用いて入力パラメータの感度解析を行った結果をFigure 2に示す。このとき他の変数は、後に述べる偏微分係数解析との対応を取るためにすべて0.1に固定した。


Figure 2. Result of Sensitivity Analysis - Parameter Scan -

これを見ると、C-Cl, O-Hの結合数が大きくなるとフロン類に特有なC-Fの強い吸収が観測される1500-500cm-1付近の吸収強度が増すことがわかる。これは、O-Hを多く持つ高級アルコール系フロン代替物質は、吸収強度が大きくなることを示唆している。またC=Oは、数が少ないところでは影響が大きく、吸収強度を大きくするが、数が大きな所では逆に影響が小さい。他方C-FはC=Oと全く逆の挙動を示し、数が少ないところでは吸収強度を減少させる傾向にあるのに、結合数の大きな所では急激に吸収強度を増加させる。
またC=CとC-Hは、ある程度数が大きくなると吸収強度の増加に寄与するが、他と比べると影響は少ない。C-Cは吸収強度増加にほとんど影響を与えない。C-Oは全く影響がない。これらの化学的解釈はまだ明らかではないが、これらの結果から、C=C結合数の多い不飽和炭化水素のアルコール系よりC-C結合が多い飽和炭化水素のエーテル系の化合物が赤外吸収の低い代替フロンの候補となることが示唆される。この示唆の検証は今後の課題である。
Figure 2において、C=O, C-H, C-Fなどが単純なシグモイド関数では表現できない振る舞いをすることは、結合数と吸収強度が複雑な関数型で関係づけられていることを示している。

5 偏微分係数解析の結果

本研究で得られた偏微分係数の平均値をFigure 3に示した。先の感度解析の結果と異なる点は、C=CがC=Oについで大きな微係数を持つことである。また、C-Fは影響は小さいが負となっている。C-Fの赤外吸収強度は、C-Cなどのそれに比べ大きいことが経験的に知られているが、C-Fの結合数の増加に関して、線形的に吸収強度が増加する訳ではないことが強く示唆されている。これらは、偏微分係数解析が、感度解析でのパラメータの値の0.0のごく近傍の動きを見ることに近いことであるからであろうと考えられる。


Figure 3. Averaged Differential Coefficients

この2項目以外では偏微分係数解析の結果は、感度解析とほぼ同等な傾向を示している。つまりC=O, C-Cl, O-Hが大きくなるとフロン類に特有なC-Fの強い吸収が観測される1500-500cm-1付近の赤外吸収強度が増すことを示唆している。C-CとC-Hはある程度の寄与をするが、他と比べると大きな影響ではない。C-Oは影響が小さい。
この結果からは、不飽和炭化水素のアルコール系より飽和炭化水素のエーテル系の化合物が赤外吸収の低い代替フロンの候補となることがより強く示唆される。感度解析からも示唆されるように飽和炭化水素のエーテル系のフロンが赤外吸収強度の小さなフロン代替物質の候補であることが偏微分係数解析でも示唆された。

6 まとめ

青山らが開発した3層パーセプトロン型ニューラルネットワークの入力パラメータの偏微分係数解析のフィッテイング問題への適応例として、含フッ素化合物44分子のフロン類に特有なC-Fの強い吸収が観測される1500-500cm-1付近の赤外吸収強度とそれらの分子の8種類(C=C, C-C, C=O, C-O, C-H, C-F, C-Cl, O-H)分子内結合数との相関を入力パラメータの感度解析(パラメータスキャン)と偏微分係数解析を用いて解析した。
感度解析の結果は、C=O, O-Hが多いと赤外吸収強度が大きくなることを示している。C-Fもその結合数が多い場合は赤外吸収強度が大きくなるが、相対的に少ない場合はむしろ吸収強度を小さくする。C-Oは全く吸収強度に影響を与えないことがわかった。
偏微分係数解析では、C-C, C=O, C-Cl, O-Hの数が大きな吸収強度に寄与することが判った。逆にC-OとC-Fの影響は小さいことが示唆された。C-Fの赤外吸収強度は、C-Cなどのそれに比べ大きいことが経験的に知られているが、C-Fの結合数の増加に関して、線形的に吸収強度が増加する訳ではないことが強く示唆された。
本研究の結果は、地球温暖化への影響が小さなフロン代替物質として不飽和炭素アルコール系より飽和炭素エーテル系フロンの方が有望であることを示唆している。しかしながら本研究の学習データには不飽和炭素アルコール系および飽和炭素エーテル系フロンが含まれていないので、それらのデータをいくつか調査し、本研究で得られた結果の検証とさらにそれらのデータを加えた解析が必要である。

いつも有益な御議論をしていただいている、お茶の水女子大学の細矢治夫教授、田島澄恵氏、豊橋技大の船津公人助教授に深く感謝する。

参考文献

[ 1] 松本高利, 長嶋雲兵, 田辺和俊, 吉元昭二, 上坂博亨, 山本博志, Chemistry and Software, 21, 3 (1999).
[ 2] 井須芳美, 長嶋雲兵, 細矢治夫, 青山智夫, J. Chem. Software, 2, 76 (1994).
[ 3] Aoyama, T., Ichikawa, H., Chem. Pharm. Bull., 39, 372 (1991).
[ 4] Aoyama, T., Wang, Q., Zhu, H., Nagashima, U., IPSJ-SIG notes, 2000-HPC-84, 7 (2000).
[ 5] 神部順子、福田朋子、長嶋雲兵、青山智夫, J. Chem. Software, 8, 27 (2002).
[ 6] NIST/EPA Gas-Phase Infrared Database - JCAMP Format,
http://www.nist.gov/srd/nist35.htm
[ 7] Aoyama, T., Ichikawa, H., Chem. Pharm. Bull., 39, 1222 (1991).
[ 8] 井須芳美, 長嶋雲兵, 細矢治夫, 大島茂, 坂本曜子, 青山智夫, J. Chem. Software, 3, 1 (1996).
[ 9] Isu, Y., Nagashima, U., Aoyama, T., Hosoya, H., J. Chem. Info. Comp. Sci., 36, 286 (1996).
[10] 藤谷康子, 小野寺光永, 井須芳美, 長嶋雲兵, 細矢治夫, 青山智夫, J. Chem. Software, 4, 19 (1998).
[11] 田島澄恵, 松本高利, 田辺和俊, 長嶋雲兵, 細矢治夫, 青山智夫, J. Chem. Software, 6, 115 (2000).
[12] 福田朋子, 田島澄恵, 斎藤久登, 長嶋雲兵, 細矢治夫, 青山智夫, J. Chem. Software, 7, 115 (2001).
[13] 福田朋子、田島澄恵、松本高利、長嶋雲兵、細矢治夫、青山智夫, J. Chem. Software, 7, 179 (2001).


Return