コンピュータによる赤外スペクトルからの構造推定

田辺 和俊, 松本 高利, 伊藤 祥司, 上坂 博亨, 都築 誠二, 田村 禎夫, 佐伯 慎之助, 小野 修一郎


Return

1 緒 言

赤外スペクトルは他のスペクトル分析法と比較して、気体、液体、固体のどのような化合物でも測定できること、1 mg程度の微量の試料でも測定できること、迅速な測定も可能であり化学反応の制御にも利用できること、さらに、歴史的に最も古くから利用されているためスペクトルが豊富に蓄積されていること、などの特徴がある。そのため、材料、生体、環境などの分野での学術的な研究目的だけでなく、産業界などでの実用的な目的でも非常に幅広く利用されている。
しかし、赤外スペクトルの感度は質量スペクトルに比べると劣るため、微量分析では質量スペクトルの方がよく利用される。さらに、構造解析の手段としてはNMRスペクトルに遅れをとっている。以前は未知化合物の構造決定ではまず赤外スペクトルを測定していたが、最近ではNMRのみで構造決定が行われることが多い。この理由としては、NMRの解析からは確実な構造情報が得られるのに対し、赤外スペクトルの解釈では50年以上前に作られたColthupの相関表 [1] などが現在でも用いられているように未だ経験的な手法に止まっており、NMRほど確実な構造推定ができないためであると考えられる。
しかし、近年著しく進展したコンピュータの情報処理および計算処理能力を駆使して赤外スペクトルの豊富なデータを解析することにより、赤外スペクトルからの構造推定の威力が格段に向上することが期待される。
そこで、我々は赤外スペクトルからの構造推定能力の向上をめざして、コンピュータを用いて赤外スペクトルから化学構造を推定する様々な手法を長年にわたって総合的に検討してきた。本報ではそれらの研究成果を総括し、様々な手法の問題点を明らかにするとともに、将来の方向を展望する。

2 帰納的方法−スペクトルデータベース

コンピュータを用いて赤外スペクトルから化学構造を推定する第1の方法は、多数の既知の化合物についてスペクトルを測定し、それらの標準スペクトルを集積したデータベースを構築しておき、未知化合物の実測スペクトルとデータベース中の標準スペクトルとを逐一照合するという帰納的な方法である。この目的でいろいろなスペクトルについてデータベースが世界各国で構築され、利用されている。
我々の研究所でも20年以上前から赤外スペクトルを含む各種のスペクトルのデータを集積した統合的なスペクトルデータベースシステム SDBS [2] の構築、および赤外スペクトルデータの検索アルゴリズムの研究 [3 - 18] を行ってきた。SDBS は同一化合物について各種のスペクトルを自ら測定し集積している統合的なスペクトルデータベースであること、またきわめて精度の高いデータがデータベースに集積されていることが他に類をみない特徴であり、海外から高い評価を受けている。現時点で約 3 万の化合物について総計約 5 万件の赤外スペクトルが集積されているが、スペクトルの測定とデータの集積は現在も継続されている。
しかし、この帰納的方法にも幾つかの問題点がある。情報検索の一般的問題として、正答を確実に与え、雑音が少なく、しかも処理時間が短いといった相矛盾する条件を満たす最適の検索アルゴリズムをみつけるというのは困難な問題である。我々は様々な検索アルゴリズムについて SDBS のデータを用いて検索実験を行い、Table 1 に示す結果から最適の検索アルゴリズムを見出した [13]。しかし、最適の検索アルゴリズムはデータベースの規模、インデックスデータの作成方法、用いるコンピュータの性能 (処理速度) などに依存するので、時代とともに変化する可能性がある。

Table 1. Average ranks of correct answers
Scoring equationAverage rank
ASIh / SIs × 10027.1
B[SIh - SIn] / SIs × 10010.4
C[SIh - SIn'] / SIs × 1006.3
D[SIh - S|Is - Ih|] / SIs × 10017.4
E[SIh - SIn - S|Is - Ih|] / SIs × 1007.5
F[SIh - SIn' - S|Is - Ih|] / SIs × 1005.6
G[SIs - SIn] / SIs × 10021.5
H[SIs - SIn'] / SIs × 1004.5
I[SIs - S|Is - Ih|] / SIs × 10014.0
J[SIs - SIn - S|Is - Ih|] / SIs × 1009.8
K[SIs - SIn' - S|Is - Ih|] / SIs × 1006.0
L[NsSIsIh - (SIs)(SIh)] / [NsSIs2 - (SIs)2]1/2 / [NsSIh2 - (SIh)2]1/2 × 10037.9
M[NfSIsIh - (SIs)(SIf)] / [NfSIs2 - (SIs)2]1/2 / [NfSIf2 - (SIf)2]1/2 × 1001.7
I: peak intensity (absorbance), N: number of peaks, s: sample (input), f: file, h: hit peaks among file peaks, n: non-hit peaks among file peaks, n': non-hit peaks stronger than the weakest sample peak.

また、最近では化学反応プロセスのモニタリングが関心を集めており [19]、そのためには反応途中の不安定化学種を同定する必要がある。しかし、スペクトルデータベースは元来、安定化合物について構築されることが多いので、不安定化学種のような未知化合物の関与する問題には無力である。
しかし、最大の問題点はデータベースの規模の問題である。データベース中の標準スペクトルと照合して正答が出るためにはその化合物のスペクトルがデータベースに集積されていることが不可欠である。データベースに集積されていない化合物はいかにしても正答が得られないからである。したがって、正答率を上げるためには可能な限りの化合物のスペクトルを集積してデータベースの規模をできるだけ大きくすることが必要となる。
ところが、これまでに化学者が論文で扱ってきた化合物の総数は 2,000 万種類以上にも達しており、その中で現実社会で流通している化合物だけでも数十万種類以上になるといわれている。それに対して、これまでに構築されているスペクトルデータベースは最大規模のものでも数万化合物程度であり、正答率の点からは十分な規模ではない。我々の SDBS も現在約 3 万化合物にとどまっており、大規模なスペクトルデータベースの構築はきわめて困難な問題である。

3 経験的手法

3. 1 相関表

第2の方法は、多数の化合物についての化学構造とスペクトルの特徴との間の関係についての経験的な知識を利用して未知化合物の実測スペクトルからその構造を推定するという経験的な方法である。赤外スペクトルは化合物を構成する分子の振動に起因するものであり、スペクトルと構造との間には何らかの関係が存在する。事実、赤外スペクトルに関してはスペクトルの特徴と構造との間にはこれまで非常に多くの経験的な知識が特性吸収帯という名前で集積されている。
それらの経験的知識はいろいろな形に整理されているが、代表的なものとして1950年にColthupが発表した相関表 [1] がある。これは代表的な官能基についてスペクトル中に現れるピークの振動数範囲と大凡の強度を棒グラフの形式で示したものである。赤外スペクトルからの未知化合物の構造推定が現在でもこのような相関表にもとづいて行われ、また、そのような相関表を利用して構造推定するソフトウエアが市販の赤外スペクトル測定装置に搭載されている。
しかし、Colthupの相関表やソフトウエアを用いて未知化合物の構造推定を行おうとしても一般にはあまりうまくゆかない。それは赤外スペクトルは図形であり、その特徴をこれらの相関表のように棒グラフで表してしまうと多くの特徴が失われるからである。
すなわち、赤外スペクトルには多数のピークが現れるが、ピークには振動数、強度、線幅の3要素があり、振動数と強度だけでなくピークが鋭いか幅広いかということも赤外スペクトルでは重要な特徴であり、スペクトル解析の専門家はピーク幅の情報も考慮して構造推定を行っているからである。しかし、Colthupの相関表などではこのようなピークの幅に関する情報が欠落している。

3. 2 パターン認識

Colthupの相関表などに代表される経験的知識は赤外スペクトルの特徴と構造の関係を簡潔に整理したものであるが、スペクトルの情報をこのような棒グラフで表すのではなく、図形そのままで扱えば構造推定の正答率も向上すると期待される。このような図形解析手法としてパターン認識があり、赤外スペクトルの問題にも多く適用されている。
我々もパターン認識の1手法である線形学習機械を用いて赤外スペクトルからの構造推定を検討した [20 - 23]。SDBS に集積されている赤外スペクトルデータを用いて6種類の官能基の有無を判定する識別関数を作成し、分類を行った結果、Table 2 に示すように75〜98% 程度の正答率で分類できることを見出した。

Table 2. Number of compounds which contain the functional group (Nc), number of compounds which contain it but are estimated not to contain (Ncn), number of compounds which do not contain it (Nn), number of compounds which do not contain it but are estimated to contain (Nnc), and error rate % (E)
Functional groupNcNcnNnNncE
C=O457034250463897.6
C=C21359677481136424.2
C≡N2236893931502.3
C-O-C1264459835275212.6
Benzene ring4572698504470514.6
NO248510991312123.3

しかし、この正答率は教師データに対する学習分類率であり、未知データに対する予測率はこの数値よりかなり低下すると思われる。なぜならば、赤外スペクトルパターンと構造との関係は本来、線形ではなく非線形であり、線形学習機械で取り扱うのは限界があると考えられるからである。

3. 3 ニューラルネットワーク

スペクトルのような図形情報と化学構造との非線形関係の解析に有効な武器として期待されるのがニューラルネットワーク [24, 25] である。このニューラルネットワークは多くの利点をもっている。第1は相関関係を予め仮定する必要がなく、非線形な相関関係の解析が行えること、第2はスペクトルパターンのような図形情報がそのまま扱えること、第3は構造とスペクトルの特徴との関係についての知識が自動的に獲得できること、第4は並列化により高速な処理が行えること、第5は学習により高度な解析が行えることである。
このような利点のためにニューラルネットワークは化学の分野でもさまざまな問題に適用されており、中でもスペクトル、特に赤外スペクトルへの応用については多数の論文がある。我々も赤外スペクトルへの適用について幾つか論文を発表している [26 - 35]が、我々も含めて大多数の論文は赤外スペクトルからの化合物の同定に関するものである。それに対して、赤外スペクトルと構造との相関の解析、すなわち赤外スペクトルからの構造推定への応用に関する論文は少数である [29, 35 - 40]。
そこで、我々はニューラルネットワークを利用して赤外スペクトルから構造を推定する実用的なシステムを開発することを目的として、SDBS に集積されている大量のスペクトルデータを活用することにより、赤外スペクトルから多種類の官能基を推定するためのニューラルネットワークの最適化について研究を行った。

3. 3. 1 入力データ

本研究でニューラルネットワークの学習およびテストに用いた赤外スペクトルデータは SDBS の原データから作成した。SDBS では各化合物についての基本データを集積した化合物辞書があり、化合物名、分子式、構造式、CAS 登録番号などの他に、官能基を示す 15 種類のコードが集積されている [2]。しかし、赤外スペクトルから構造を推定するシステムとしての実用性を考えると、推定する官能基がこの15種類だけでは不十分である。そこで、この15種類の官能基を主官能基とし、それぞれについて数百化合物以上の構造式を調べ、その主官能基の隣接の構造によって細かく分類して副官能基とした。このようにして分類された官能基と各官能基を有する化合物数 (スペクトル数) を Table 3 に示す。

Table 3. Main functional groups, sub-functional groups, structures, numbers of substances that contain those groups (N), and identification accuracies (%) for present (P) and absent (A) groups
Main functional groupSub-functional groupStructureNPA
AMIDE102483.080.7
AMIDE1CO-NH213691.285.3
AMIDE2CO-NHR60881.982.9
AMIDE3CO-NR221472.975.7
AMIDE4beta-lactam1283.333.3
AMIDE5gamma-lactam1080.080.0
AMIDE6delta-lactam2100.0100.0
AMIDE7R-O-CO-NHR4100.00.0
AMIDE8NHR-CO-NHR13289.472.7
AMINO68280.681.2
AMINO1R-NH223284.586.2
AMINO2Ar-NH218888.381.9
AMINO3R-NH-R8275.675.6
AMINO4R-NH-Ar5080.076.0
AMINO5Ar-NH-Ar16100.062.5
AMINO6NR315261.863.2
BENZ88672.075.6
BENZ1mono-substituted benzene ring26287.087.8
BENZ2o-di-substituted benzene ring25670.382.8
BENZ3m-di-substituted benzene ring7286.166.7
BENZ4p-di-substituted benzene ring18878.787.2
BENZ51,2,4-tri-substituted benzene ring12466.175.8
BENZ61,2,3-tri-substituted benzene ring7676.368.4
BENZ71,3,5-tri-substituted benzene ring1020.060.0
CDC130463.866.6
CDC1CH2=CHR18679.686.0
CDC2CH2=CR28077.575.0
CDC3CHR=CHR(cis)46266.264.5
CDC4CHR=CHR(trans)8483.373.8
CDC5CHR=CR252860.665.9
CDC6CR2=CR214844.674.3
CDC7C=C=C2100.0100.0
CDC8C≡C8690.776.7
CHO15472.780.5
CHO1R-CHO3488.270.6
CHO2C=C-CHO30100.086.7
CHO3Ar-CHO9066.777.8
COOH74291.186.5
COOH1R-COOH30274.282.8
COOH2CX-COOH2491.783.3
COOH3C=C-COOH6290.371.0
COOH4Ar-COOH17488.581.6
COOH5amino acid18296.795.6
CTN67074.398.2
CTN1R-C≡N29263.095.9
CTN2C=C-C≡N16286.493.8
CTN3Ar-C≡N22063.696.4
ESTER51889.289.2
ESTER1R-COO-R30486.895.4
ESTER2C=C-COO-R7694.763.2
ESTER3R-COO-C=C1283.3100.0
ESTER4C=C-COO-C=C4100.050.0
ESTER5Ar-COO-R8490.578.6
ESTER6R-COO-Ar2491.7100.0
ESTER7Ar-COO-Ar666.7100.0
ESTER8C=C-COO-Ar6100.00.0
ETHER48668.377.8
ETHER1R-O-R23689.883.9
ETHER2R-O-C=C1485.785.7
ETHER3R-O-Ar19474.291.8
ETHER4C=C-O-C=C2864.378.6
ETHER5Ar-O-Ar1233.3100.0
ETHER6C=C-O-Ar1283.366.7
HALO90657.268.0
HALO1C-F9652.177.1
HALO2C-Cl54855.565.0
HALO3C-Br25243.766.7
HALO4C-I6437.559.4
KETONE63271.276.9
KETONE1R-CO-R15472.792.2
KETONE2R-CO-C=C13664.775.0
KETONE3R-CO-CX1687.537.5
KETONE4R-CO-CO-R1283.366.7
KETONE55-membered ring ketone3889.589.5
KETONE6R-CO-Ar15862.084.8
KETONE7Ar-CO-Ar4285.795.2
KETONE8p-quinone7879.579.5
NITRO102890.794.4
NITRO1R-NO23494.1100.0
NITRO2C=C-NO23644.477.8
NITRO3Ar-NO294887.892.4
NITRO4>N-NO21040.080.0
NITRO5O-NO22100.00.0
OH77276.485.0
OH1CH2R-OH24883.187.9
OH2CHR2-OH24873.490.3
OH3CR3-OH4879.262.5
OH4Ar-OH32268.384.5
PHOS48275.580.5
PHOS1H-P(=O)(OR)2875.050.0
PHOS2R-P(=O)(OR)222682.385.0
PHOS3P(OR)34100.0100.0
PHOS4others24468.981.1
SULF92668.357.2
SULF1SO3H8681.476.7
SULF2SO3R3476.588.2
SULF3SO2-O-633.3100.0
SULF4SO313683.894.1
SULF5SH10866.746.3
SULF6-S-32658.959.5
SULF7SO2-10276.588.2
SULF8-S-S-4445.545.5
SULF9>C=S10855.661.1
SULF10-SO-O-666.766.7
SULF11-SO-4100.0100.0
Overall594474.580.3
R: alkyl group,Ar: aromatic group

赤外スペクトルの波数範囲は通常4,000〜400 cm-1であり、SDBS の赤外スペクトルもこの波数範囲のデータを集積している。一方、スペクトル中のピーク幅 (半値幅) はピークによって様々であるが、ニトリル基のように鋭いピークでは 2〜3 cm-1 程度のものもある。したがって、このような鋭いピークをもつ赤外スペクトルパターンを忠実に再現するためには 1 cm-1 程度の波数間隔が必要となり、ニューラルネットワークに入力する波数点は 3,600 にもなる。しかし、本研究で用いたニューラルネットワークのソフトウエアはユニット数の上限が 255 であり、全波数範囲のスペクトルパターンを 1 cm-1 の波数間隔で入力することは不可能である。
この問題が赤外スペクトルなどのスペクトルパターンをニューラルネットワークで解析する場合の最大の問題であり、これまでの論文でも入力点を減らすためのスペクトルの特徴抽出の前処理方法として高速フーリエ変換 (FFT)、wavelet 変換、Hadamard 変換など色々な方法が試みられている。しかし、我々はスペクトル解析の専門家が構造推定を行う際に果たして FFT や wavelet 変換に類する特徴抽出操作を行っているのかどうかという点に疑問を抱き、むしろ専門家は実測の赤外スペクトルそのものに対してパターン認識を行っているのではないかと考えた。
そこで、本研究では専門家のそのような思考過程にできるだけ近い構造推定システムの開発を目指して、ニューラルネットワークに入力するデータとしてはこのような特徴抽出の変換操作をせず、実測のスペクトルパターンを入力することにした。したがって、ニューラルネットワークに入力する波数点が 255 以下になるように波数範囲と波数間隔を設定する必要がある。むしろ、入力点が 255 一杯になるよう波数範囲を広くとるよりも狭い波数範囲の方が正答率が高くなる可能性もある。
すなわち、Colthupの相関表などに示されているように各官能基のピークが現れる波数範囲はほぼ一定であり、入力データをそれらの波数範囲に限定することも考えられる。なぜならば、スペクトル解析の専門家が構造推定を行う場合、全波数範囲のスペクトルパターンに着目しているのではなく、各官能基ごとに特定の波数範囲のパターンに注目しているのではないかと考えられるからである。したがって、ニューラルネットワークに入力する場合も必要最小限度の波数範囲のスペクトルデータを入力する方が有効である可能性もある。
そこで、15種類の各官能基について、SDBSに集積されている赤外スペクトルデータからその官能基を含む化合物と含まない化合物をそれぞれ数百以上抽出した。次に、それぞれについて平均スペクトル P、A を計算し、両者の差スペクトル D を計算した。この方法で得られた各官能基ごとのスペクトル P、A、D を Figure 1 に示す。


Figure 1. Averaged spectra for substances that contain (thin) and that do not contain (dotted) functional groups and difference spectra (thick).

この差スペクトル D は各官能基に特有のスペクトルパターンであり、Colthupの相関表をコンピュータを用いてより定量的に表現したものと考えることができる。その吸光度が正の波数領域はその官能基の存在を、また吸光度が負の領域はその官能基の不在を示す特徴的な波数範囲であると考えられる。したがって、この差スペクトルの吸光度の絶対値が高い波数範囲をニューラルネットワークに入力すべき波数範囲と考えることができる。しかし、上に記したように、波数範囲は広い方が必ずしも適切とは言えない可能性がある。
そこで、この差スペクトルのデータを用いて波数範囲の影響を調べるために、官能基 BENZ について波数範囲を 4 種類設定し、正答率への影響を調べた。その結果、波数範囲が最も狭い場合に正答率が最大になり、波数範囲はできるだけ狭い方が適切であることが分かった。そこで、この方針に基づき、Figure 1 の差スペクトルのデータを参考にして各官能基の波数範囲と波数間隔を決定した。

3. 3. 2 ニューラルネットワークの構造

ニューラルネットワークには幾つかの型があるが、赤外スペクトルから構造を推定する場合には、Figure 2 に示す入力層、中間層、および出力層から成る階層型のニューラルネットワークが有効である。スペクトルパターンデータを入力層に入力し、出力層には構造を教師データとして学習を行うものである。本研究ではニューラルネットワークのソフトウエアには富士通の NEUROSIM/L を用い、Windows PC 上で学習とテストを行った。このNEUROSIM/L は階層型のニューラルネットワークシミュレータであり、学習にはエラーバックプロパゲーション方式が用いられている。NEUROSIM/L では中間層は 1層または 2層の設定が可能であるが、本研究では入力層、中間層、出力層各1層から成る3層構造のニューラルネットワークを用いた。


Figure 2. Two types of neural network structures

このニューラルネットワークを用いて Table 3 に示した合計 90 種類の官能基を推定するために本研究では Figure 2 に示す 2 段構造のニューラルネットワークシステムを用いた。すなわち、初段のニューラルネットワークでは15種類の主官能基の判定を行い、初段のニューラルネットワークの出力層に結合している次段のニューラルネットワークでは副官能基の判定を行った。
赤外スペクトルを入力して15種類の官能基の有無を推定するニューラルネットワークを構築する場合、Figure 2 に示す (a)、(b) の2種類の構造のニューラルネットワークが考えられる。構造 (a) は、初段では1個のニューラルネットワークを構築し、出力層のユニット数を15にしてそれぞれに主官能基を割り当て、全てのデータを一括して用いて学習を行う方法である。構造 (b) は、初段の15種類の主官能基ごとに1個のニューラルネットワークを構築し、出力層のユニット数は1にして、それぞれの主官能基ごとに学習を行う方法である。
両方の方法でニューラルネットワークを構築、学習し、テストを行った。その他の条件は以下の検討における最適条件を用いたが、この点は以下の検討においても同様である。幾つかの官能基について検討した結果、(b) の場合に正答率が高いことが分かった。そこで、以下の検討においてはこの構造を採用した。

3. 3. 3 ニューラルネットワークの学習とテスト

本研究では実用的な構造推定システムを開発することを目的としてニューラルネットワークの最適条件の検討を行った。そのために、Table 3 に示した各官能基について SDBS のスペクトルデータを用いてニューラルネットワークの学習とテストを行った。その際、各官能基に対してその官能基を含む化合物と含まない化合物のスペクトルデータを同数作成して学習とテストを行った。官能基を含む化合物のデータは Table 3 に示した各官能基を含む化合物について作成し、含まない化合物のデータはそれ以外の官能基を含む化合物群からアトランダムに同数抽出して作成した。
ニューラルネットワークの教師データは官能基を含む場合を 1、含まない場合を 0 として学習を行った。スペクトルデータは学習用とテスト用に分割し、ニューラルネットワークの構造や学習法を種々変えながら正答率が最高になる最適条件を探索した。テストの正答率の算出には、その官能基を含む時に出力値が 0.5 以上の場合、およびその官能基を含まない時に出力値が 0.5 以下の場合に正解とした。
ニューラルネットワークによる構造推定システムを開発するためには、システムの性能を求めるために予測テストを行う必要がある。そのためにはデータ全体を学習用とテスト用に分割し、前者を用いて学習したニューラルネットワークに後者を入力して正答率を求める必要がある。その際の学習用およびテスト用のデータを作成する方法には、データ全体を適当な割合で学習用とテスト用に分割する方法や、leave-one-out 法など色々な方法が考えられるが、本研究では前者の方法を採用した。
データ全体を学習用とテスト用に分割する際の比率50 % : 50 % および90 % : 10 % について、および学習用とテスト用データの作成位置前半/後半について、その影響を調べた。幾つかの官能基について検討した結果、データ作成の比率や位置にはほとんど依存しないことが分かった。学習用とテスト用データの比率が50 % : 50 % および90 % : 10 % の両者の場合で差がなかったことは、今回検討した官能基を含む化合物数が十分な大きさであったためであり、次段の副官能基のように化合物数が少ない場合には学習用とテスト用データの比率は影響を与える可能性がある。
また,本研究でニューラルネットワークの学習とテスト用に作成したデータは SDBS に集積されている化合物の中から該当する官能基を含む化合物を登録番号順に抽出したが、正答率が学習用、テスト用データの作成位置に依存しなかった結果は、SDBSに登録されている化合物が系統的な偏りが少なく、アトランダムに集積されていることを示していると考えられる。そこで、以下の検討においては、学習用データは前半の50 %、テスト用データは後半の50 %で作成することにした。
次段の副官能基の学習用およびテスト用データを作成する場合に、その副官能基を含む化合物のデータの作成法は問題ないが、その副官能基を含まない化合物のデータをどのように作成するかについては種々の方法が考えられる。本研究では次の2通りの方法を検討した。その1は、その副官能基を含む全ての主官能基からデータをアトランダムに抽出する方法であり、その2は、その副官能基が含まれる主官能基の内の他の副官能基のみからデータを抽出する方法である。以上の2つの方法について幾つかの副官能基について正答率を調べた。その結果、前者の作成法の方が正答率が高くなった。したがって、次段データの作成法は前者の方法を採用して以下の検討を行った。

3. 3. 4 ニューラルネットワークによるテスト結果

以上のような各種の検討を行って最適条件を決定し、その最適条件においてニューラルネットワークを構築し、学習とテストを行った。15種類の主官能基および90種類の副官能基について得られた正答率を Table 3 に示す。
まず、主官能基の正答率について考察すると、15種類の主官能基は CTN を除いていずれも十分な数のデータでテストが行われた。したがって CTN 以外の14種類の主官能基の正答率は十分信頼できるものと考えられる。それらの内で正答率の高いものは NITRO (88.9%)、ESTER (87.5%)、COOH (84.8%)、ETHER (83.7%) などであり、これらの官能基は赤外スペクトルからその存在が推定しやすいといわれているものである。一方、正答率が低かった主官能基は HALO (58.5%)、PHOS (67.9%)、CDC (68.5%) などであり、これらの官能基も赤外スペクトルからは存在が推定しにくいとされているものである。したがって、各主官能基についての正答率はこれまで経験的に定性的にいわれてきた赤外スペクトルからの官能基の推定の確度を数値化したものと考えられる。
次に、副官能基についての正答率を考察すると、上記のように、データ数が少ない場合には正答率の信頼性が低いので、データ数が比較的多い副官能基の内で正答率の高いものをあげると ESTER1 (91.1%)、NITRO3 (90.1%)、AMIDE2 (82.4%) などであり、これらの官能基は赤外スペクトルからその存在が推定しやすいといわれているものである。逆に正答率の低いものは SULF6 (59.2%)、HALO2 (60.2%)、CDC5 (63.3%)などである。BENZ7 (40.0%)、SULF8 (45.5%)、HALO4 (48.4%) などの副官能基はデータ数が少なく信頼性が低いが、正答率がきわめて低い点で注目される。

3. 4 経験的方法の問題点

このように正答率がきわめて低い官能基が存在することは赤外スペクトルの本質によるものであると解釈される。そのような赤外スペクトルの1例を Figure 3 に示す。この化合物は分子内に塩素原子を含んでいるが、Figure 3 の赤外スペクトルをニューラルネットワークに入力すると C-Cl 結合は存在しないという推定結果を与える。これは分子内に塩素原子が存在するにも拘わらず、C-Cl 結合に起因する特性吸収帯 (Colthupの表によれば780〜700 cm-1に強いピーク) が Figure 3 のスペクトルには見られないので、ニューラルネットワークは C-Cl 結合は存在しないという推定結果を与える。


Figure 3. Infrared spectrum of 4-chloro-3,5-dimethylphenol

このように、ある官能基が分子内に存在するにも拘わらず、その特性吸収帯が赤外スペクトルに現れないために、ニューラルネットワークによる官能基推定の正答率が平均として 77.2 % という低い数値になったと考えられる。このような現象を与える原因としては

  1. 分子の対称性によりその官能基を含む振動が赤外不活性、または振動双極子能率の値が小さくなり、赤外スペクトルにほとんど現れない。
  2. その官能基による特性吸収帯が現れる波数領域で他の非常に強いピークと偶然重なったために、その官能基の存在が推定できない。
  3. 赤外スペクトルは一般にスペクトルの中で最も強いピークの透過率が5% 程度になるように試料セルの厚さや溶液濃度を調整して測定するので、ある官能基の特性吸収帯がある程度の強度で現れたとしても、他の領域で極めて強いピークが存在すると、そのピークの強度で全体を規格化するために、他のピークの強度は低くなり、最初の官能基が存在しないという推定になる。
など様々な原因が考えられる。上記の Figure 3 の場合に C-Cl に帰属されるべきピークが現れていない原因は不明である。
このように考察すると、ニューラルネットワークにより赤外スペクトルから官能基を推定する際の正答率として本研究で得られた平均 77.2% という正答率はNMRスペクトルから構造推定する場合の数値よりは低いと考えられる。しかし、この数値は赤外スペクトルから化学構造を推定する場合の限界を示していると考えられ、赤外スペクトルの本質に起因している以上はこれ以上の改善は不可能であろう。したがって、スペクトルパターンの特徴と化学構造との関係を利用する経験的方法にはここに最大の問題点が存在する。

4 理論的方法

第3の方法は、想定した構造の分子について分子軌道法などにより赤外スペクトルを計算し、その結果から実測の赤外スペクトルを与えるような構造を推定するという理論的方法である。近年のコンピュータの演算性能の向上により、かなり大きな分子でも赤外スペクトルの理論計算が可能になり、また計算法の進展により、計算されたスペクトルも実測スペクトルにかなり近いものが得られるようになった。中でも分子軌道法による振動スペクトルの計算については多くの研究が行われている。
しかし、これまでの理論計算では専ら振動数の再現に重点が置かれており、振動スペクトルの3大要素である振動数、強度、線幅を総合的に再現することを目的とした理論的研究はほとんどない。その中で Schlegel らは振動数と赤外強度の非経験的分子軌道計算を行っている [41, 42] が、電子相関を取り入れた計算は不十分である。これは当時のコンピュータ能力の限界のためであるが、現在ではコンピュータの性能向上により電子相関をさらに十分に取り入れた計算が可能である。
また、彼らは計算値との比較対照として、振動数と赤外強度の実測値に振動の非調和性を補正した推定値を用いている。これは通常の分子軌道計算のプログラムでは振動数の計算値は調和振動の近似のもとに算出されているが、実測の振動数には振動の非調和性が影響しているためである。しかし、分析対象の未知化合物についてこのような非調和性の補正は不可能であり、未知化合物の構造決定のための振動スペクトルの解析手法という観点からは、計算値の比較対照は実測値そのものに対して行われるべきである。
本研究では、振動スペクトルの理論的解析法として非経験的分子軌道法がどの程度実測スペクトルを再現できるかを検証するために、メタンから四塩化炭素に至る13種の塩素化メタン分子についてGAUSSIAN94 プログラムを用いて振動数と赤外強度を計算した。これらの分子について我々は以前に赤外スペクトルの精密測定から幾つかの興味ある現象を見出していた。たとえば、CH4、CH3Cl、CH2Cl2、CHCl3 の系列では C-H 伸縮振動の赤外強度が大幅に変化するが、この現象は単純な電荷理論では説明できないこと [43]、また CH2Cl2 については気体の赤外スペクトルに異常な形状が観測されること [44] を観測しており、これらの実験事実が理論計算でどこまで説明できるかに興味があったからである。

4. 1 方 法

本研究で計算した分子はメタン5種 (CH4、CH3D、CH2D2、CHD3、CD4)、塩化メチル2種 (CH3Cl、CD3Cl)、ジクロロメタン3種 (CH2Cl2、CHDCl2、CD2Cl2)、クロロホルム2種 (CHCl3、CDCl3)、四塩化炭素1種 (CCl4) の計13種である。これらの分子について GAUSSIAN94 プログラム [45] を用い、分子構造を最適化した後、基底関数と計算法の多数の組み合わせについて振動数と赤外強度を計算した。
用いた基底関数は 6-31G、6-31G(d)、6-31G(d,p)、6-31G(3df,3pd)、6-31+G、6-31+G(d)、6-31+G(d,p)、6-31+G(3df,3pd)、6-31++G、6-31++G(d)、6-31++G(d,p)、6-31++G(3df,3pd)、6-311G、6-311G(d)、6-311G(d,p)、6-311G(3df,3pd)、6-311+G、6-311+G(d)、6-311+G(d,p)、6-311+G(3df,3pd)、6-311++G、6-311++G(d)、6-311++G(d,p)、6-311++G(3df,3pd)、D95、D95(d)、D95(3df,3pd)、cc-pVDZ、cc-pVTZ、cc-pVQZ、AUG-cc-pVDZ、AUG-cc-pVTZ、AUG-cc-pVQZ の33種類であり、計算法は RHF、B3LYP、BLYP、BPW91、MP2(Full) の5種類である。コンピュータは IBM RS/6000 SP システム (Power2-135MHz) を用いた。計算値と比較すべき実測値として、振動数の実測値は文献値 [46] を、赤外強度の実測値は我々の文献値 [43] を用いた。

4. 2 結果と考察

ここで取り上げた分子の基準振動の数は、四面体Td 型分子 (CH4、CD4、CCl4) では4個 (その内、赤外活性振動は2個)、三角錐 C3v型分子 (CH3D、CHD3、CH3Cl、CD3Cl、CHCl3、CDCl3) では6個 (すべて赤外活性)、C2v型分子 (CH2D2、CH2Cl2、CD2Cl2) では9個 (赤外活性は8個)、Cs型分子 (CHDCl2) では9個 (すべて赤外活性) である。したがって、13種の分子の基準振動の総数は合計84個 (赤外活性振動の総数は75個) になり、これだけの多数の振動について基底関数33種類、計算法5種類の組み合わせによる振動数と赤外強度の計算結果を本論文に示すことは不可能なので Appendix Tables 1-13に示す [47]。
非経験的分子軌道法で振動数と赤外強度を計算する際には、分子振動の調和性が仮定されている。一方、現実の分子は非調和振動を行っており、したがって C-H 伸縮振動のような振動の非調和性の影響が大きい振動では振動数の計算値は実測値より高めになる。赤外強度に対する振動の非調和性の影響は現在まで未解明であるが、何らかの影響があると考えられる。
この振動の非調和性などの影響を補正するために、振動数については分子軌道法による計算値を補正するscale factorという概念が導入され、種々のscale factorの値がこれまでに提案されている [48 - 52]。すなわち、計算値と実測値の比が多数の分子の多数の振動について一定値に近ければ、この比を補正係数と考えて計算値から実測値を算出しようという考え方である。赤外強度については振動数以上に振動の非調和性の影響が大きく、計算値が実測値を再現する可能性は低いと考えられる。そこで、ここで計算した多数の振動について振動数と赤外強度の計算値と実測値の比を求め、このscale factorを計算値に補正して実測値がどの程度の誤差で再現できるかを調べた。この振動数比と赤外強度比の結果も付録の Appendix Tables 1-13 にまとめて示す。
84個の振動について基底関数33種類と計算法5種類の組み合わせ、計165種類の計算法による振動数の計算値/実測値の比 (以下では振動数比と略記) の総平均は1.0205、標準偏差は0.0374となり、振動数の計算値はほぼ実測値を再現していることがわかる。しかし、振動形ごとに振動数比をみると顕著な傾向が認められる。各振動ごとに165種類の計算法について求めた振動数比の平均値と標準偏差を求めた結果を Table 4に示す。

Table 4. Uncertainty class (UC), observed frequencies (cm-1), means and standard deviations of frequency ratios
UCObsd FreqMeanStd DevUCObsd FreqMeanStd Dev
CH4n4C13061.04760.0475CH2Cl2n4B2820.99810.0604
n2A15341.03120.0367n3B7170.97760.0649
n1A29171.04250.0252n9B7580.96460.0930
n3A30191.04560.0250n7B8981.01500.0460
CH3Dn6C11551.04510.0455n5B11531.03200.0523
n3C13001.04850.0473n8B12681.03840.0521
n5C14711.03460.0382n2C14671.00670.0459
n2A22001.03930.0259n1B29991.04860.0324
n1E29451.04420.0259n6B30401.06260.0328
n4B30171.04630.0260CHDCl2n6B2830.99020.0599
CH2D2n4C10331.03400.0433n5B6920.98150.0621
n7C10901.04190.0470n9B7380.96650.0868
n9C12341.04350.0470n4C7781.01470.0481
n5C13331.02830.0366n8A8901.02150.0568
n3C14361.03530.0397n7A12231.03420.0523
n2C22021.01690.0253n3C12821.02860.0470
n8C22341.04610.0262n2B22491.04180.0319
n1C29741.04390.0258n1B30241.05650.0322
n6C30131.04760.0260CD2Cl2n4C2820.98930.0605
CHD3n3C10031.04000.0469n3B6870.98070.0642
n6C10361.03300.0429n7D7121.01060.0467
n5C12911.03490.0400n9B7270.97000.0857
n2C21421.02450.0255n5C8261.02430.0523
n4C22631.03270.0259n8B9571.03210.0593
n1C29931.04620.0259n2D10521.02970.0478
CD4n4B9961.03900.0468n1B22051.03440.0325
n2B10921.02510.0366n6C23041.04570.0321
n1B21091.02010.0254CHCl3n6B2610.99570.0608
n3A22591.03450.0260n3C3631.00180.0605
CH3Cln3A7320.97210.0701n2B6800.97300.0597
n6A10171.02490.0459n5B7740.95880.0987
n2A13551.03850.0479n4B12201.02900.0563
n5A14521.0344 0.0424n1B30341.05700.0340
n1E29371.05230.0299CDCl3n6C2620.98880.0606
n4B30391.05210.0301n3C3690.98050.0590
CD3Cln3A7010.97360.0662n2B6590.97530.0604
n6A7681.01690.0458n5B7490.96260.0901
n2A10291.02950.0494n4B9141.01770.0644
n5A10601.02690.0420n1C22661.04300.0334
n1A21601.02380.0292CCl4n2C2171.00300.0645
n4A22831.04120.0298n4C3140.99970.0587
n1C4590.97530.0720
n3E7760.97170.1060
Uncertainty class (UC) taken from ref [46].

84個の振動に共通して、振動数の高い振動ほど振動数比も高いという傾向が認められる。分子軌道法による振動数の計算値を補正するscale factorとして種々の値がこれまでに提案されている [48 - 52]。従来のscale factorは振動数に関わらず一定値を用いるのに対し、最近、多数の分子についてのDFT法による振動数の計算結果から、振動数と1次式の関係のscale factorを用いる linear scaling 法が提案された [51, 52]。我々の結果はRHFとMP2を含む計算法全般についてこの方法と同様な傾向があることを示している。
振動形ごとに振動数比をまとめると、C-H 伸縮振動では1.0425-1.0626、C-D 伸縮振動では1.0169-1.0461、C-H およびC-D 変角振動では1.0067-1.0485、C-Cl 伸縮振動では0.9588-0.9815、C-Cl 変角振動では0.9805-1.0030となり、それぞれかなり狭い範囲に収まる。特に興味深いのは塩素原子が関与する振動の振動数比であり、振動数が高い C-Cl 伸縮振動よりも振動数が低い C-Cl 変角振動の振動数比が大きくなった。
この結果は振動数が高いほど振動数比も高い関係にあるとする上記のlinear scaling法とは逆の結果である。我々の結果は塩素化メタン分子13種の84個の振動についての結果であるのに対し、linear scaling法の論文でははるかに多種多様の分子のはるかに多数の振動を取り扱っており、単純な比較はできない。しかし、振動数が高い C-Cl 伸縮振動よりも振動数が低い C-Cl 変角振動の振動数比が大きいという我々の結果は、塩素を含む分子の振動の非調和性について有益な情報を提供していると思われる。
一方、標準偏差は C-Cl 伸縮振動が最大で、C-Cl変角振動や C-H または C-D 変角振動がそれに次ぎ、C-H または C-D 伸縮振動で最小、という傾向が見られる。このことは、種々の計算法のどれを用いても C-H または C-D 伸縮振動は振動数比がほぼ一定値になるのに対し、塩素原子が関与する振動の振動数比は計算法によってかなりばらつくことを意味する。
すなわち、塩素原子が関与する振動の振動数比は基底関数により大きく変動し、6-31G、6-311G、D95などの基底関数を使った場合は分極関数を含む基底関数を使った場合に比べかなり低い値になる。一方、分極関数を含む基底関数を使った場合には基底関数の影響はごくわずかであり、塩素原子が関与する振動の振動数の計算には分極関数を含む基底関数を使う必要があることが分かる。また、塩素原子が関与する振動の振動数は計算法によっても大きく変動し、RHFやMP2に比べてDFT法は低目の振動数を与える傾向が認められるが、この傾向は文献 [51, 52] においても指摘されている。
赤外強度についても、振動数の場合と同様、各振動ごとに165種類の計算法について求めた強度比の平均値と標準偏差を求めた結果を Table 5 に示す。赤外強度の計算値は振動数の場合よりも実測値との差が大きい。赤外不活性および観測されない振動を除く72個の振動についての強度比の平均値は 1.6693、標準偏差は2.2624となる。上記のように、調和振動の近似の下で計算される振動数あるいは赤外強度の計算値と、振動の非調和性が含まれている実測値との比の大半は分子振動の非調和性によるものと考えられる。

Table 5. Observed intensities (km/mol), their errors (km/mol), means and standard deviations of intensity ratios
Obsd IntErrorMeanStd DevObsd IntErrorMeanStd Dev
CH4n434.00 2.001.55450.6922CH2Cl2n40.600.100.89210.3646
n374.005.001.18450.3685n38.000.401.73070.4624
CH3Dn615.702.000.74100.3285n995.008.001.65800.2374
n312.201.501.48530.6584n71.200.101.53780.9025
n54.101.000.76970.3773n826.601.201.90080.5058
n27.201.001.14870.4001n20.600.100.21900.3512
n17.202.001.22040.3830n16.900.501.20680.5075
n453.002.000.54520.1730n60.00
CH2D2n45.201.501.45770.6316CHDCl2n60.600.100.91430.3763
n78.102.001.49430.6740n55.700.402.00310.5601
n911.102.001.47730.6523n972.003.001.80170.3914
n34.401.501.50180.6967n42.801.000.80650.2446
n25.601.500.84400.3020n829.000.701.36470.3941
n812.202.001.06310.3607n717.000.402.05000.5569
n113.802.001.16840.3687n30.600.101.55140.6371
n626.002.001.10020.3494n22.400.101.70310.7487
CHD3n37.000.501.48380.6657n13.100.101.28460.6501
n68.100.501.83100.7745CD2Cl2n40.600.100.93320.3768
n57.10 0.501.71750.8150n38.001.501.51280.3973
n22.501.000.82390.3025n70.00
n422.701.501.13480.3858n967.003.001.79220.4022
n118.301.501.22690.3890n850.002.001.61140.3760
CD4n420.001.001.59420.7056n20.200.103.69322.9995
n335.001.501.09630.3736n14.300.201.59440.5997
CH3Cln322.001.001.37360.4285n60.00
n64.100.501.81840.8486CHCl3n60.050.034.32906.1091
n27.500.502.21690.8416n30.500.100.71440.5820
n512.001.001.07080.2770n24.400.601.36460.5768
n118.001.001.40640.2831n5226.001.101.55510.2475
n49.701.001.51980.7351n431.402.601.71320.4066
CD3Cln315.301.001.50840.4997n10.320.102.29492.5719
n61.100.501.63581.0940CDCl3n60.050.034.22055.9592
n210.701.001.76840.6245n30.300.201.28131.0256
n56.901.000.97230.2640n25.200.101.05540.4471
n111.300.501.59610.3439n5157.007.001.73010.4563
n45.100.501.59240.7755n487.501.701.43650.3701
n10.060.046.480712.0997
CCl4n40.200.056.78707.4114
n3322.0060.001.67490.2921
Observed intensities and their errors taken from ref. [43].

したがって、上記の振動数比1.0205は振動数に対する非調和性の影響が僅か2.05 % にすぎないことを意味する。それに対して、強度比1.6693という結果は赤外強度に対する非調和性の影響が非常に大きいこと、およびその影響が赤外強度を減少させる方向にあることを意味している。振動数に対する非調和性の影響に関する研究は多いが、赤外強度に対する非調和性の影響に関する研究はないので、この結果を検証できる実験データはないが、興味深い結果である。
赤外強度の計算値と実測値の違いのもう1つの原因として考えられるのが電子相関の効果である。本研究の計算結果から計算法ごとに強度比の平均値を求めると、RHFは2.1788、B3LYPは1.4878、BLYPは1.7240、BPW91は1.5467、MP2は1.4600となり、電子相関が取り入れられていないRHFでは計算値が実測値の2倍以上の値になる。赤外強度をMP3以上の電子相関補正法で計算した論文は見あたらないので、DFT法やMP2における強度比がほぼ1.5という値が振動の非調和性によるものか、電子相関によるものかどうかは不明であるが、この点も興味ある結果である。
赤外強度の場合は振動数の場合と異なり、実測強度の測定誤差が大きな振動が多く、また強度比の標準偏差が大きい振動も多いので、強度に対する振動形の影響は認めにくい。しかし、注意すべきはCHCl3n6、CDCl3n6n1、CCl4n4における標準偏差の異常な大きさである。このことはこれらの赤外強度が計算法によって大きく変動することを意味する。事実、標準偏差が最大のCDCl3n1では強度比はMP2/D95での72.9からMP2/cc-pVTZでの0.000まで大きな差がある。この振動はC-D伸縮振動であり、塩素原子が関与する振動ではない。しかし、この分子では塩素原子が3個存在するため、C-D結合の伸縮振動における電子密度の変化量 (赤外強度に比例する) が基底関数、特に電子相関の効果によって大きく影響されるためであると考えられる。
分子軌道法による理論計算が赤外スペクトルをどの程度まで再現するかという観点からは、振動数や赤外強度の計算値の絶対値が実測値と大きくかけ離れていても問題ではなく、重要なことは計算値と実測値の比率が一定であることである。すなわち、その比率が一定であれば比率をscale factorとして計算値を補正すれば実測値が再現できることになる。
この観点から各計算法の精度を比較するために、基底関数と計算法の組み合わせについて、全振動 (赤外強度については不活性および観測できない振動は除く) についての振動数比と強度比の平均値と標準誤差を計算した。ただし、実測値には測定誤差が存在するので、この誤差に見合った重みを考慮して平均値と標準偏差を計算した。すなわち、振動数の場合は文献[46] に記載されている振動数の不確かさのクラスによって測定誤差 Dn を A: 1.0、B: 2.0、C: 4.5、D: 10.5 cm-1 とし、これに基づく重み wi
wi = (1/Dn)2
により計算した。
一方、赤外強度の場合は強度の実測値 I とその測定誤差 DI に対して重み wi
wi = (I/DI) 2
により計算した。これらの重み wi を用い、振動数比または強度比 xi の平均 M と標準偏差 SD
M = Swi xi /Swi
SD = [Swi (M - xi)2 /Swi]1/2
により計算した。この標準偏差を計算法の精度の目安となる計算誤差とみなした。種々の計算法の内で最適法を決めるために、この標準偏差を全振動について平均した。また、最適の計算法の選定に当たっては計算時間も評価基準の1つになるので、全分子の計算時間 (CPU時間) を平均した。このようにして求めた各計算法の標準偏差と計算時間を Table 6 に示す。この結果から計算法の影響について幾つかの傾向を見いだすことができる。

Table 6. Standard deviations of frequency (SDF) and intensity (SDI) ratios and CPU times (T, sec)
RHFB3LYPBLYP
SDFSDITSDFSDITSDFSDIT
6-31G0.05434.9585162.00.06200.8870417.50.07580.8995398.0
6-31G(d)0.02152.3211235.80.02610.9114694.90.04261.8811645.0
6-31G(d,p)0.02012.2419212.70.02460.8272755.80.04161.7879732.7
6-31G(3df,3pd)0.01810.96042455.80.02140.47145241.30.03731.33404218.6
6-31+G0.05415.2328182.30.06221.0530588.00.07630.9934545.3
6-31+G(d)0.02162.0680275.30.02660.6031962.40.04321.9392894.4
6-31+G(d,p)0.01971.9505257.60.02510.56381037.20.04201.9195985.6
6-31+G(3df,3pd)0.01850.80473215.50.02180.70916508.60.03801.78515398.4
6-31++G0.05374.9785198.90.06220.9183627.10.07670.9479577.9
6-31++G(d)0.0214 2.0093280.50.02660.60941008.70.04321.9663931.2
6-31++G(d,p)0.01961.8694262.90.02510.57541083.50.04212.00241024.4
6-31++G(3df,3pd)0.01810.81223320.90.02170.69696762.80.03811.88945578.7
6-311G0.05112.9923226.70.06471.0823649.60.07972.4455591.9
6-311G(d)0.02312.6583324.70.02781.78641106.90.04414.4690987.0
6-311G(d,p)0.02071.8726318.30.02591.55801152.70.04264.41331023.6
6-311G(3df,3pd)0.01980.99543945.00.02251.38997014.00.03972.52145689.2
6-311+G0.04804.2303269.50.06130.7404899.20.07721.2433832.8
6-311+G(d)0.02281.5954411.20.02660.86331495.30.04282.86141319.8
6-311+G(d,p)0.02041.40281058.60.02460.84311542.10.04163.05861369.6
6-311+G(3df,3pd)0.01950.77655390.50.02241.00118661.60.03952.49346853.3
6-311++G0.04764.3371275.60.06110.6981952.00.07601.1935884.0
6-311++G(d)0.02251.5250418.50.02640.85121553.00.04232.81631374.4
6-311++G(d,p)0.02031.3453410.50.02450.83701614.20.04092.83031439.4
6-311++G(3df,3pd)0.01950.78798851.90.02231.02538925.20.03892.16097084.0
D950.05567.1656193.60.05905.5569485.00.06806.2332453.3
D95(d)0.02168.3824402.10.02254.2274804.20.03714.4182744.3
D95(3df,3pd)0.01840.93993022.40.02110.49825870.10.03751.13164803.9
cc-pVDZ0.01611.3587468.60.02510.71921205.10.03811.82591148.9
cc-pVTZ0.01871.04713016.80.02620.58966480.70.04231.94995688.1
cc-pVQZ0.01880.881737667.90.02440.573640888.30.04091.849734250.1
AUG-cc-pVDZ0.01590.9569815.40.02660.83792568.70.04442.04942459.5
AUG-cc-pVTZ0.01850.853815834.20.02700.855821269.50.04202.171417523.1
AUG-cc-pVQZ0.01860.8231187538.60.02430.7902207582.30.03982.0411141621.1

Table 6B. Standard deviations of frequency (SDF) and intensity (SDI) ratios and CPU times (T, sec)
BPW91MP2
SDFSDITSDFSDIT
6-31G0.06180.7662422.20.06312.0596401.6
6-31G(d)0.02791.1719674.50.01191.2526674.7
6-31G(d,p)0.02741.0858760.20.01241.86231062.7
6-31G(3df,3pd)0.02410.72824531.10.01400.484023526.0
6-31+G0.06220.8435582.50.06272.0183671.7
6-31+G(d)0.02881.0948942.10.01210.98681401.1
6-31+G(d,p)0.02821.07561025.70.01330.99771752.7
6-31+G(3df,3pd)0.02450.94325554.10.01460.726735256.2
6-31++G0.06210.7912616.60.06271.8551693.6
6-31++G(d)0.02871.0713984.80.01280.91311675.7
6-31++G(d,p)0.02821.05991079.20.01440.95771811.5
6-31++G(3df,3pd)0.02440.94055751.30.01430.724036377.7
6-311G0.06402.0806619.00.05841.5001998.9
6-311G(d)0.02883.18291020.40.01341.35242143.1
6-311G(d,p)0.02822.94901090.00.01622.02612335.0
6-311G(3df,3pd)0.02511.46435796.50.01201.408339071.5
6-311+G0.06110.9072866.70.05431.38631842.6
6-311+G(d)0.02761.60281385.40.01260.59283467.3
6-311+G(d,p)0.02711.55871436.40.01600.779820654.4
6-311+G(3df,3pd)0.02501.13926919.50.01220.913238668.9
6-311++G0.06080.8459921.00.05381.39702480.4
6-311++G(d)0.02751.57241439.60.01260.57513587.5
6-311++G(d,p)0.02701.54851512.30.01620.733120804.4
6-311++G(3df,3pd)0.02501.14467191.30.01210.930139308.2
D950.06035.7000479.40.06078.64271023.4
D95(d)0.02524.2460781.00.01445.276815689.8
D95(3df,3pd)0.02440.58024904.10.01500.662922594.7
cc-pVDZ0.02891.10411187.80.0183 1.628024458.2
cc-pVTZ0.02851.00335796.20.01450.523031159.1
cc-pVQZ0.02730.912233913.60.01470.5230226014.8
AUG-cc-pVDZ0.03021.00432557.50.01950.56687349.4
AUG-cc-pVTZ0.02921.112317806.90.01140.777176835.4
AUG-cc-pVQZ0.02700.9855138130.30.01430.3287549134.6

まず第1は振動数の計算誤差に対する基底関数の影響である。たとえば、計算法RHFにおいて基底関数を6-31G、6-31G(d)、6-31G(d,p)、6-31G(3df,3pd) と変えると計算誤差は0.0543、0.0215、0.0201、0.0181 と大幅に減少する。これに対して、同じRHFにおいて基底関数を6-31G、6-31+G、6-31++G、6-311G、6-311+G、6-311++G と変えても計算誤差は0.0543、0.0541、0.0537、0.0511、0.0480、0.0476 と変化は小さい。これは上記のように、本研究の塩素原子を含む分子では分極関数の影響が大きいが、diffuse 関数の影響は小さいことを示している。
また、電子相関の効果としてRHFをMP2に変えると計算誤差は全般的にはほぼ半減しているが、分極関数を含まない6-31G、6-31+G、6-31++G、6-311G、6-311+G、6-311++G ではRHFとMP2とで計算誤差が減少せず、むしろMP2の方が若干ではあるが誤差が大きい。これは電子相関の補正の効果を引き出すためには分極関数を取り入れた基底関数を用いる必要があることを示しているが、MP2で誤差が増えた原因は不明である。
第2点は振動数の計算誤差に対する計算法の影響である。Table 6 の結果から各計算法における計算誤差の平均を算出すると、RHFでは0.0266、B3LYPでは0.0325、BLYPでは0.0482、BPW91では0.0344、MP2では0.0237となる。この結果から、まず本研究の場合には RHF が DFT 法より良い精度を与えることが分かる。多数の分子についての振動数の計算結果から、RHF が最も精度が悪く、MP2 がそれに次ぎ、DFT が最も良い精度であるとの報告がある [49]。彼らと我々では分子の数と種類が違うので結果の違いは当然であるが、上記のようにDFT法は塩素原子の関与する振動の振動数を低く与える傾向があり、これが誤差を大きくしている。
また、MP2 は RHF より計算時間がほぼ2倍程度かかるのに計算精度はそれほど向上しないことが分かる。さらに、DFT 法の中ではこれまで B3LYP が比較的よい結果を与えるとされているが、本研究の結果では BPW91 も B3LYP に匹敵する誤差になった。この結果は文献 [52] に示されている B3LYP とB3PW91 が最も誤差が小さいという結果と対応している。
第3点は計算精度と計算時間の関係であり、全般的に基底関数や計算法の精度を上げれば、計算時間は長くなるが振動数の計算誤差は減少するという傾向が認められる。しかし、大幅な計算時間がかかるcc-pVQZ、AUG-cc-pVTZ、AUG-cc-pVQZ などの基底関数を用いた場合に必ずしも最高の計算精度が得られるとは限らない点である。Table 6 の結果において、各計算法の中で最高の計算精度が得られた基底関数はRHFではAUG-cc-pVDZ、B3LYPではD95(3df,3pd)、BLYPではD95(d)、BPW91では6-31G(3df,3pd)、MP2ではAUG-cc-pVTZ であり、これらの基底関数の場合の計算時間は各計算法の中で最長ではない。したがって、計算精度が最高で、かつ計算時間も適切な最適な計算法が存在することが分かる。
第4点は赤外強度に関する全般的傾向として、上記の振動数に関する傾向ほど明確ではないが、ほぼ同様の傾向が認められる。この場合に特筆すべき点として、計算法 B3LYP、BPW91 では基底関数 6-31G(3pd,3df) との組み合わせにおいて赤外強度の計算誤差が最小となっている。振動数の再現においては DFT法、特にB3LYP がよい結果を与えることはこれまでの研究から判明しているが、赤外強度の再現に関しては種々の計算法を比較した研究はこれまで皆無である。本研究では塩素化メタン分子しか扱っていないので、一般の分子についてこの結論があてはまるかどうかは不明であるが、比較的計算時間の短い基底関数 6-31G(3pd,3df) と B3LYP、BPW91の組み合わせが赤外強度の計算法として最適であることは興味深く、他の多くの分子についての検討が待たれる。
Table 6の結果から最適の計算法を決定することができるが、計算の目的によって最適の計算法を選定する基準が異なる。赤外スペクトルを理論計算する目的はいろいろあるが、実測の赤外スペクトルに現れているピークがどの振動モードによるかを決める振動の帰属を行う場合には、振動数の計算値が実測値にできるだけ近く、計算値の絶対的な精度が高い計算法であることが要求される。このような場合は一般に少数の分子について計算を行うことが多いので計算時間はあまり問題にならない。
そこで、この観点から Table 6 の結果の中から標準偏差の最も小さい計算法を探すと、振動数に対しては AUG-cc-pVTZ の基底関数を用いて MP2 計算を行うと標準偏差 0.0114、すなわち相対誤差1.14 % で実測振動数が再現できることになる。この相対誤差 1.14 % という数値は C-H 伸縮振動が現れる 3000 cm-1 領域において平均 34 cm-1 の計算誤差を与えることを意味するので、実測の赤外ピークの帰属には絶対的な精度として満足できる計算法とはいえない。
また、赤外強度に対しては AUG-cc-pVQZ の基底関数を用いて MP2 計算を行うと標準偏差 0.3287、すなわち相対誤差 32.87 % で実測強度が再現できることになる。赤外強度の測定誤差は実測強度の通常10 % 程度なので、強度の計算誤差 32.87 % も絶対的な誤差としては必ずしも満足できる値ではない。したがって、このような実測ピークの帰属を行う場合には、これらの計算法を用いて振動数と赤外強度を計算し、本研究で行ったように振動数だけでなく赤外強度の計算値も考慮に入れて慎重に帰属を行うことが必要であると結論できる。
以上の場合は計算値の絶対的な精度の高さが要求されるので、現状の計算法でこのような問題を解決することは難題である。しかし、分子の環境の変化などに由来する実測スペクトルの変化を解析する場合には、振動数や赤外強度の相対的な変化が問題となるので、上記ほどの精度の高さは必要ない。たとえば、孤立分子と分子錯体について振動数を分子軌道法で計算し、マトリックス単離法で観測した赤外スペクトルとの比較から、分子錯体の存在およびその構造を推定した研究がある [53 - 55]。このような問題の場合には振動数の絶対値は問題でなく、相対的なシフトが計算で説明できればよいので、上記の計算法で十分解決可能と考えられる。
赤外スペクトルを理論計算する3番目の目的として、緒言で記した未知化学種の同定がある。この場合には無数の化学種の中から実測の赤外スペクトルに一致する計算スペクトルを示す化学種を探索することが必要となる。スペクトルの一致は振動数や赤外強度の数値ではなくスペクトルの図形として判断するので、計算精度はあまり問題にならない。本研究で検討した計算法の中で最も近似の低い計算法は基底関数 6-31G と計算法 RHF の組み合わせであるが、この場合の振動数の計算誤差 5.43 % はスペクトル図形の再現には十分な精度である。
一方、赤外強度の計算誤差 495.85 % は測定誤差と比較すると満足できる精度ではない。しかし、未知化学種の赤外スペクトルを測定する場合、スペクトル中の最大ピークが通常 5 % 程度の透過率になるようセルの厚さを調節して測定が行われるので、その絶対的な強度は問題にならない。したがって、このような目的では相対的な強度が再現できれば十分であり、この点で上記の計算誤差はこの目的には十分な計算精度である。むしろ、この場合は莫大な数の化学種について赤外スペクトルを計算する必要があるので、最大の選定基準は計算時間である。上記の計算法での平均計算時間は162.0秒であり、多数の化学種の赤外スペクトルを計算できる方法とはいえない。この目的には同程度の計算精度でかつ計算時間が圧倒的に短い計算法の開発が望まれる。

4. 3 理論的方法の問題点

さらに、実測の赤外スペクトルを再現するための理論計算には問題が山積している。第1はスペクトル中のピークの半値幅を計算できる理論が現在まで開発されていないことである。分子軌道法で計算される赤外強度は実測スペクトルではピークの面積強度に対応する。現実の分子の赤外スペクトルでは一般にピークの半値幅は振動により大きく異なる。したがって、実測の赤外スペクトルを再現するためにはピークの半値幅を理論計算する必要がある。しかし、従来の赤外スペクトルの半値幅の理論では分子は剛体として取り扱われているため、ピークによる半値幅の違いを説明できない。
第2の問題は赤外スペクトルの測定が最も多く行われる液体や固体状態のスペクトルを再現するための溶媒効果の理論が不完全なことである。我々の報告 [44] にあるように、ジクロロメタン分子は水素結合のような強い分子間相互作用をするとは考えられないが、気体と液体の赤外スペクトルには大きな変化が観測される。このような溶媒効果を説明する理論として古典的な誘電体モデルがあり、それに基づいて振動数や赤外強度の溶媒効果の計算法として、Onsager Reaction Field Model、Self Consistent Isodensity Polarized Continuum Model などが開発され、GAUSSIAN プログラムに組み込まれている [45]。しかし、これらの理論モデルにおいても分子の内部振動が考慮されていないため、ジクロロメタンで観測されるピーク、すなわち、振動による溶媒効果の違いが説明できない。
第3は実測の赤外スペクトルには倍音や結合音がかなりの強度で現れたり、また、フェルミ共鳴の影響により赤外強度が理論値から大きく変動することが多い。しかし、これら倍音、結合音、フェルミ共鳴を含めて赤外スペクトルを再現するための理論が不完全である。
第4は、未知化学種の同定においては実測の赤外スペクトルを与えるような候補分子について赤外スペクトルを理論計算する必要があるが、現状では無数の化学種の中から候補分子を探索する方法がないことである。このような諸々の問題を考えると、緒言で記したような理論的方法によって赤外スペクトルから未知化学種を同定することは現状ではきわめて困難であると結論できる。

5 考察―各種の方法の比較

本研究では、コンピュータを用いて赤外スペクトルから化学構造を推定する方法として、スペクトルデータベースを利用する帰納的方法、線形学習機械やニューラルネットワークを利用する経験的方法、非経験的分子軌道計算を利用する理論的方法、など様々な方法を検討した。しかし、どの方法を用いても、現状のコンピュータの能力では赤外スペクトルから化学構造を推定するには限界があることが分かった。
まず、帰納的方法の限界の原因はデータベースの規模を無限大ではなくとも実用的規模にまで拡大することの不可能さであり、如何なる未知化合物でも検索できるデータベースを構築することが未来永劫に不可能であることは原理的に明白である。また、経験的方法の限界の原因は、赤外スペクトルのパターンと化学構造の関係の複雑さにある。この複雑さには、分子振動の中で赤外活性を支配する選択律の問題だけでなく、分子の非調和性やフェルミ共鳴も現実の赤外スペクトルパターンには大きな影響を与えており、測定で得られた赤外スペクトルパターンから経験的な規則によって化学構造を推定することがやはり原理的にきわめて困難であることに起因している。
この点で赤外スペクトルからの構造推定手段として今後最も期待できるのが非経験的分子軌道計算などを利用する理論的方法であり、コンピュータの演算能力が飛躍的に向上する将来においてはこの方法が主流になると思われる。しかし、測定された未知化合物の赤外スペクトルに対して、無限大の集合の化合物について理論スペクトルを計算することは将来においても不可能であり、何らかの方法による候補化合物の絞込みが必要になると思われる。
そのための手段として、データベースを利用する帰納的方法や経験則を利用する経験的方法等との組み合わせが考えられる。すなわち、未知化合物の実測赤外スペクトルをデータベースで検索して出力された類似化合物の共通構造を調べて、未知化合物の官能基を拾い上げる。さらに、未知化合物の実測赤外スペクトルに対して経験則やニューラルネットワークを適用して含まれる官能基を拾い上げる。両方の結果を総合して、未知化合物の構造を組み立て、候補化合物を何組か用意する。これらの候補化合物について非経験的分子軌道法などにより赤外スペクトルを理論計算し、実測スペクトルを最もよく再現するものを正解とする、という方法である。
このような帰納的方法、経験的方法、理論的方法など各種の方法を組み合わせた赤外スペクトルの自動解析法が実現する将来には、赤外スペクトル測定の汎用性と相俟って、赤外スペクトルがNMRスペクトルと並んで、あるいはそれ以上に多くの問題解決に貢献する時代が到来すると思われる。

6 結 言

我々は30年以上に亘る一連の研究の中で、スペクトルからの構造推定手段として、NMRスペクトルに対して赤外スペクトルの復権を何とかして図りたいという思いで、様々な方法を検討してきた。しかし、帰納的方法、経験的方法、理論的方法、どの方法を用いても、現状のコンピュータの能力では赤外スペクトルから構造を推定するには限界があることが分かった。いつの日か我々の夢が実現する時代が来ることを期待する。

一連の本研究を行うにあたり、SDBSの構築やニューラルネットワークシステムの評価などに貢献していただいた沢山の方々に感謝する。

参考文献

[ 1] N. B. Colthup, J. Opt. Soc. Am., 40, 39 (1950).
[ 2] O. Yamamoto, K. Someno, N. Wasada, J. Hiraishi, K. Hayamizu, K. Tanabe, T. Tamura, M. Yanagisawa, Anal. Sci., 4, 233 (1988).
[ 3] 田辺和俊, 佐伯慎之助, 田村禎夫, 分析化学, 23, 626 (1974).
[ 4] K. Tanabe, S. Saeki, Anal. Chem., 47, 118 (1975).
[ 5] K. Tanabe, T. Tamura, J. Hiraishi, S. Saeki, Anal. Chim. Acta, 112, 211 (1979).
[ 6] 田村禎夫, 平石次郎, 田辺和俊, 佐伯慎之助, 分析化学, 28, 31 (1979).
[ 7] 田村禎夫, 田辺和俊, 平石次郎, 佐伯慎之助, 分析化学, 28, 591 (1979).
[ 8] 田村禎夫, 田辺和俊, 平石次郎, 佐伯慎之助, 分析化学, 29, 279 (1980).
[ 9] 田村禎夫, 田辺和俊, 平石次郎, 佐伯慎之助, 分析化学, 30, 439 (1981).
[10] S. Saeki, K. Tanabe, T. Tamura, M. Tasumi, I. Suzuki, Appl. Spectrosc., 35, 148 (1982).
[11] K. Tanabe, T. Tamura, J. Hiraishi, Bunseki Kagaku, 31, E27 (1982).
[12] K. Tanabe, T. Tamura, J. Hiraishi, S. Saeki, I. Suzuki, M. Tasumi, Bunseki Kagaku, 31, E177 (1982).
[13] 田辺和俊, 田村禎夫, 平石次郎, 佐伯慎之助, 鈴木功, 田隅三生, 分光研究, 32, 241 (1983).
[14] K. Tanabe, J. Hiraishi, S. Saeki, I. Suzuki, M. Tasumi, Computer Enhanced Spectrosc., 2, 13 (1984).
[15] K. Tanabe, J. Hiraishi, T. Tamura, O. Yamamoto, M. Yanagisawa, N. Wasada, Computer Enhanced Spectrosc., 2, 97 (1984).
[16] S. Saeki, K. Tanabe, Appl. Spectrosc., 38, 693 (1984).
[17] 田辺和俊, 平石次郎, 田村禎夫, 山本修, 柳沢勝, 和佐田宣英, 分析化学, 33, 95 (1984).
[18] 田辺和俊, 平石次郎, 田村禎夫, 山本修, 柳沢勝, 和佐田宣英, 分析化学, 33, 285 (1984).
[19] D. C. Hassel, E. M. Bowman, Appl. Spectrosc., 52, 18A (1998).
[20] 田辺和俊, 田村禎夫, 都築誠二, 分析化学, 35, 518 (1986).
[21] 田辺和俊, 田村禎夫, 都築誠二, 分析化学, 36, 339 (1987).
[22] 田辺和俊, 田村禎夫, Chem. Express, 7, 549 (1992).
[23] 田辺和俊, 田村禎夫, 分析化学, 41, 515 (1992).
[24] 田辺和俊, 長塚義隆(訳), 化学者のためのニューラルネットワーク入門, 丸善 (1996).
J. Zupan, J. Gasteiger, Neural Networks for Chemists, VCH (1993).
[25] 田辺和俊, Neurosim/Lによるニューラルネットワーク入門, 日刊工業新聞社 (2003).
[26] K. Tanabe, T. Tamura, H. Uesaka, Applied Spectrosc., 46, 807 (1992).
[27] 田辺和俊, 田村禎夫, 上坂博亨, J. Chem. Software, 1, 15 (1992).
[28] K. Tanabe, H. Uesaka, Computer-Aided Innovation of New Materials, 2, 943 (1993).
[29] 田辺和俊, 田村禎夫, 上坂博亨, Chem. Express, 8, 117 (1993).
[30] 田辺和俊, 上坂博亨, 井上常史, 高橋博之, 田中壮一郎, 分析化学, 43, 765 (1994).
[31] 田辺和俊, 上坂博亨, 福士真, 化学とソフトウエア, 17, 89 (1995).
[32] 田辺和俊, 上坂博亨, 相川克明, 天野敏男, 化学とソフトウエア, 17, 127 (1995).
[33] 田辺和俊, 上坂博亨, 南幸男, 化学とソフトウエア, 19, 3 (1997).
[34] 松本高利, 田辺和俊, 佐伯和光, 天野敏男, 上坂博亨, 分析化学, 48, 483 (1999).
[35] 松本高利, 田辺和俊, 上坂博亨, 化学とソフトウエア, 21, 53 (1999).
[36] E. W. Robb, M. E. Munk, Mikrochim. Acta [Wien], 1, 131 (1990).
[37] M. E. Munk, M. S. Madison, E. W. Robb, Mikrochim. Acta [Wien], 2, 505 (1991).
[38] R. J. Fessenden, L. Gyoegyi, J. Chem. Soc. Perkin Trans., 2, 1755 (1991).
[39] D. Ricard, C. Cachet, D. Cabrol-Bass, T. P. Forrest, J. Chem. Inf. Comput. Sci., 33, 202 (1993).
[40] C. Klawun, C. L. Wilkins, J. Chem. Inf. Comput. Sci., 36, 69 (1996).
[41] C. Sosa, H. B. Schlegel, J. Chem. Phys., 86, 6937 (1987).
[42] G. L. Fox, H. B. Schlegel, J. Chem. Phys., 92, 4351 (1990).
[43] K. Tanabe, Spectrochim. Acta, 31A, 1611 (1975).
[44] S. Saeki, K. Tanabe, Spectrochim. Acta, 25A, 1325 (1969).
[45] M. J. Frisch, G. W. Trucks, H. B. Schlegel, P. M. W. Gill, B. G. Johnson, M. A. Robb, J. R. Cheeseman, T. Keith, G. A. Petersson, J. A. Montgomery, K. Raghavachari, M. A. Al-Laham, V. G. Zakrzewski, J. V. Ortiz, J. B. Foresman, J. Cioslowski, B. B. Stefanov, A. Nanayakkara, M. Challacombe, C. Y. Peng, P. Y. Ayala, W. Chen, M. W. Wong, J. L. Andres, E. S. Replogle, R. Gomperts, R. L. Martin, D. J. Fox, J. S. Binkley, D. J. Defrees, J. Baker, J. P. Stewart, M. Head-Gordon, C. Gonzalez, and J. A. Pople, GAUSSIAN 94 Revision D.4, Gaussian, Inc., Pittsburgh, PA (1994).
[46] T. Shimanouchi, Tables of Molecular Vibrational Frequencies, Consolidated Volume I, Nat. Stand. Ref. Data Ser., Nat. Bur. Stand. (US), 39 (1972).
[47] Appendix Tables 1-13は http://www.sccj.net/publications/JCCJ/v4n1/a01/appendix.html からダウンロードできる。
[48] J. B. Foresman, A. Frisch, Exploring Chemistry with Electronic Structure Methods, 2nd Ed., Gaussian Inc., Pittsburgh, PA (1996), p.64.
[49] A. P. Scott, L. Radom, J. Phys. Chem., 100, 16502 (1996).
[50] S. Kudoh, M. Takayanagi, M. Nakata, Chem. Phys. Lett., 322, 363 (2000).
[51] H. Yoshida, A. Ehara, H. Matsuura, Chem. Phys. Lett., 325, 477 (2000).
[52] N. Akai, S. Kudoh, M. Takayanagi, M. Nakata, J. Photochem. Photobiol., A, 146, 49 (2001).
[53] E. D. Jemmis, K. T. Giju, K. Sundrarajan, K. Sankaran, V. Vidya, K. S. Viswanathan, J. Leszczynski, J. Mol. Struct., 510, 59 (1999).
[54] S. Kudoh, K. Onoda, M. Takayanagi, M. Nakata, J. Mol. Struct., 524, 61 (2000).
[55] F. Ito, T. Nakanaga, Y. Futami, S. Kudoh, M. Takayanagi, M. Nakata, Chem. Phys. Lett., 343, 185 (2001).


Return