化学構造データマイニングのためのTFSピーク同定システムの開発

藤島 悟志, 高橋 由雅


Return

1 はじめに

現在,医薬や農薬などの開発研究の場では既存薬物のデータを背景に,薬化合物の化学構造と生理活性など種々の作用(または特性)との間の関係を積極的に見出し,これらの情報を活用することによって新規有用化学物質の合理的な開発を進めようとする様々な試みが行われている[1].これらの基礎となる構造活性相関やこれにもとづく種々のデータ予測等の問題には対象となる化学物質の構造特徴の理解が不可欠となる.一方で,近年の各種データベースの開発とその集積データの急激な増大に伴い,データ洪水による有益な情報の埋没を回避するとともに,集積された大量のデータを系統的,機械的に解析・処理しながら,有益な情報の抽出や新たなチャンスの発見を目的としたデータマイニングの技法が注目を集めている[2 - 4].こうした,化学構造情報を基礎としたデータマイニングにおいてはその要素技術としての構造特徴解析のための新たな技法の開発やそのシステム化が極めて重要な課題となる.
筆者らは先に,事前の部分構造(フラグメント)知識を必要としない構造特徴のプロファイリング手法としてTopological Fragment Spectra(TFS)法[5]を提案するとともに,その構造類似性検索における有用性を示した[6].また,構造情報のTFS表現を基礎とした構造類似性空間の可視化や薬物活性クラスの分類/予測問題への応用を通じ,構造情報の数値的な記述子としての有効性を示してきた[7, 8].しかし,その生成フラグメントの数の大きさと多様性のため,これまでの解析においては化合物構造から得られた個々のTFSピーク自体の意味について詳細に解析することが困難であった.そこで,本研究では,化学構造のTFS表現を基礎とした構造データマイニングにおけるデータ解析と知識発見の支援を目的に,生成フラグメントやその由来構造の参照機能などを備えたTFSピーク同定システムの開発を行った.

2 方法

2. 1 化学構造のTFS表現

TFS(Topological Fragment Spectra)[5]とは,化学構造の定量的な類似性評価を目的に,著者らによって考案された構造情報の数値的な記述手法の一つである.その生成手順は,(1)対象とする化学構造式から可能なフラグメントをすべて列挙し,(2)列挙したそれぞれのフラグメントに対して数値的な特徴付けを行う.そして,(3)その特徴付けの値と出現頻度のヒストグラムを生成する.このヒストグラムがTFSであり,これを多次元パターンベクトルとして用いることで,化学物質の構造特徴を数値的・定量的に表すことができる.この手法は,フラグメントの定義ファイルを必要とせず,また,生成されたフラグメントの特徴付けの方法を工夫することによって,様々な特性スペクトルを生成することができる.
Figure 1(a)は,2-methylbutaneの化学グラフを例に,フラグメント列挙とその頂点原子の次数(隣接原子の数)による特徴付けを用いて,TFSの生成過程を模式的に示したものである.また各フラグメントに付与されている数値は,そのフラグメントに対する特徴付けの値である.一方,Figure 1(b)は各特徴付けの値とそれに対応するフラグメントの頻度を表したヒストグラムである.最終的に,2-methylbutaneに対するTFSは,X=(3,1,2,2,2,3,3,1)の8次元パターンベクトルとして表すことができる.


Figure 1. Schematic flow of TFS generation. S(e) is the number of edges (bonds) of fragments to be generated.

2. 2 TFSピーク同定

TFSの各ピークは,列挙されたフラグメントをもとに生成されている.このピーク内のフラグメントの情報を保存することができれば,各ピークに対応するフラグメントを容易に関連付けることができる.ここでは,TFSの各ピークに対応するフラグメントを抽出・同定するためのプロセスをピーク同定と呼ぶ.ピーク同定が可能になれば,ピークの裏側に隠されている具体的なフラグメント情報を確認することができる.これにより,TFSを記述子とした種々のデータ解析において,どのフラグメントによって,注目する結果が導かれたのかを調べることが可能となる.TFSピーク同定の基本概念をFigure 2に示す.Figure 2は前述の2-methylbutaneに対し,生成される最大フラグメントサイズ(結合の数)を1とし,特徴付けには質量数を用いて生成されたTFSピーク同定を模式的に示したものである.ここでは,水素原子は結合している重原子とひとまとめにした拡張原子の中で処理されるものとする.


Figure 2. Illustrative scheme of TFS peak identification.

まず,注目する化学グラフ(2-methylbutane)からサイズ0のフラグメントを列挙し,特徴付けを行う.同様に,サイズ1のフラグメントを列挙し,特徴付けを行う.特徴付けの値と,その出現頻度から,図左下のようなヒストグラムが生成され,図右下のようなTFSが生成される.
TFSを使用したコンピュータ実験において,その解析の際,より詳細に,具体的に説明するために,TFSの各ピークが,解析対象となっている親構造のどの部分に対応しているかが大きな関心事となる.今,特徴量(特徴付けのプロセスで付与された値,この場合は質量数)28のピークに注目し,このピークを選択する.その場合,そのピークに含まれる(ピークを構成している),6,9番のフラグメントが同定され,画面表示される.これがここでのピーク同定の基本概念となる.
実際には,同じピーク位置に複数の異なるフラグメント(フラグメント)が帰属される場合もある.また,一つの構造から,部分グラフとしては同型のフラグメントが多数生成される場合も多い.ここでのピーク同定に際しては,注目するピークにはどのようなフラグメントが対応しているのかを知ることが主要な目的であるため,構造的に重複するフラグメントを複数表示することは避けたい.このことから,同型のフラグメント全てを取得するのではなく,ユニークなもののみを抽出することを考慮しなければならない.例えば,Figure 2で示している,6,9番のフラグメントは互いに同型である.従ってこのような場合には,1種類のフラグメントとして同定,表示するものとする.

3 TFSピーク同定システムの実装

3. 1 システムの概要

ここでは,複数の化合物構造データを対象とした構造特徴解析やデータマイニングへの活用を念頭に置き,単一構造のTFSだけでなく,構造データファイルからの一括入力による処理も可能とした.すなわち,複数の化学構造データに対するTFSの合成スペクトルを生成することで,対象とするすべての構造データから得られたフラグメントに対してTFSピーク同定を行うことが可能である.また,ピーク同定で得られたフラグメントに対して,解析の対象としている構造データファイル内のどの構造に由来するものかを確認するため,構造データファイル参照機能も合わせて実装した.

3. 2 システムの基本構成

本システムは,ダイアログウィンドウを基本としたユーザインタフェースのもと,ファイル操作,TFSの生成,ピーク同定,構造データファイル参照機能,各種データ表示機能の五つの基本モジュールによって構成される.システムの基本構成概念をFigure 3に示す.図中の実線は各モジュール間で,データのやり取りが行われていることを示している.また,点線は出力ファイルの流れを示しており,ファイル操作モジュールによって出力された各ファイルが,各種表示モジュールで使用されることを意味する.


Figure 3. Overview of the peak identification system.

(1) ファイル操作モジュール
モジュール間のデータのやり取りを助けるインタフェースの役割を果たす.具体的には,作成・入力されたデータを各モジュールへ提供する.また,各モジュールで生成されたデータのファイル出力を行う.化学構造データの入力方法には以下に挙げる3種類の方法がある.
化学構造エディタによる作画入力
本システムでは,専用の化学構造エディタ(MOLIN)を用いて利用者が直接画面上に構造式を描画,入力することができる.MOLINではマウス操作による化学構造式の描画,編集機能を提供している.利用者は,種々の環構造テンプレートやユーザ定義テンプレートを利用することによって,容易に化学構造式を入力することができる.
結合表ファイルからの入力(単一構造)
化学構造の結合表ファイルからの直接入力も可能である.単一構造の結合表とは,一つの結合表ファイルを入力することである.個々の化学構造に対して生成されたTFSについて,ピーク同定を行う場合に使用する.本システムで使用する結合表はMOLIN結合表である.MOLIN結合表の仕様をFigure 4に示す.


Figure 4. Connection table in MOLIN file.

構造データファイルからの入力
ここで言う構造データファイルとはMOLIN結合表の仕様に従って作成された複数の化学構造データからなるデータファイルである.本システムでは指定されたデータファイル内に格納されている全ての化学構造に対するTFS合成スペクトルの生成とそのピーク同定に用いる.
(2) TFS生成モジュール
入力された化学構造に対してTFSを生成する.入力が,化学構造エディタによる場合,または単一の構造結合表ファイルの場合は,TFS生成モジュールが直接TFSを生成・表示する.一方,入力が構造データファイルの場合は,一括生成モジュールによってTFSの合成スペクトルが生成される.
(3) ピーク同定モジュール
スペクトル表示画面から利用者によって指定されたピークに対し,TFS生成時に作成されたフラグメント辞書ファイル(生成フラグメントのMorgan辞書ファイル)を利用し,選択ピークに対応するフラグメントの同定を行う.
(4) 構造データファイル参照モジュール
構造データファイルを入力対象とした場合のツールであり,ピーク同定によって得られたフラグメントに対して,構造データファイル内のどの化学構造から,生成されたものかを検索・表示する機能である.
(5) 各種表示機能
各モジュールが生成したファイルやデータをもとに,ダイアログ上に結果を表示するためのツールを提供する.構造式とスペクトル,その他計算結果はダイアログ上に表示する.一方,生成フラグメントの一覧表示と由来構造の表示は新たにウィンドウを生成して行う.

3. 3 ピーク同定処理

単一構造データに対するTFSピーク同定の処理の流れをFigure 5に示す.始めに,対象とする化学構造に対して,その結合表の情報をもとに,予め指定されたサイズ(結合の数)まで可能なフラグメントを順次生成する.このとき,水素原子はそれが結合している重原子とひとまとめにして拡張原子として取り扱う.一方,同型のフラグメントが多数生成される可能性がある.これはTFSにおけるピークの強度情報の一部として反映されているが,ピーク同定に際しては注目するTFSピークに対してどのようなフラグメントが対応しているのかを知ることが目的であり,同型フラグメントは一つのフラグメント表現で代表させ,ユニークなもののみを表示する.そのため,生成されたフラグメントの各々について既出のものとの同型チェックを行う必要がある.


Figure 5. Flow diagram of TFS peak identification.

化学構造の同型チェックには構造情報のユニークな符号化表現が必要となる.本研究では,生成フラグメントの同型チェックに必要な符号化法としてMorganの符号化アルゴリズム[9]を用いた.まず,生成されたフラグメントに対してMorganの符号化処理を施す.そして,得られたMorgan名(アルゴリズムによって定まるユニークな符号列)が既出のものでなければシステム内に用意したMorgan辞書ファイルに登録する.生成される全てのフラグメントに対して,その都度同様な符号化処理を行い,既出のフラグメントとの同型チェックを行う.重複していなければ,順次Morgan辞書にMorgan名を登録する.辞書登録されたフラグメントには同時にそのフラグメントの特徴量(本研究ではフラグメントの質量数)が付与される.
このようにして生成されたMorganの辞書ファイルを利用することによって,生成されたTFSの任意のピークに対応するフラグメントを知ることができる.また,フラグメント生成過程において,生成フラグメントの結合表ファイルとユニークなフラグメントの由来ファイルも生成され,それぞれ,後のフラグメント表示と構造データファイル参照機能に使用される.システム化に際しては,生成されたTFSを表示し,その表示画面から任意に選択されたピークの位置情報を取得する.そして,対応する値を有するフラグメントを検索・表示することによってピーク同定を行うものとする.これら一連の処理を自動化するためのプログラムの実装を行った.

3. 4 複数構造に対する合成スペクトルの生成とピーク同定

上記は単一構造データに対するTFSピーク同定の処理について示しているものである.一方,本システムは異なる活性クラスに属する薬物群の各クラスにおける構造特徴解析を基礎とした,構造活性相関のためのデータマイニングへの活用を目的としている.このことから,特定の活性クラスに属する複数の化合物構造データを対象とした解析が不可欠となり,そのための処理の自動化も合わせて行った.
複数構造データの解析に対しては,個々の化学構造から生成されたTFSをもとに,各ピーク位置の度数を積算することによって新たなスペクトル(合成スペクトル)を生成する.この合成スペクトルに対しても,前述の単一データに対するピーク同定と同様な処理を可能とした.また,この場合,複数の構造データを一括処理していることから,同定されたピークに対応する構造フラグメントの由来構造を知ることは極めて重要であり,その構造データファイルからの参照機能も実装した.これらの処理の流れをFigure 6に示す.個々の構造についての,データ読み込みからTFS生成までの一連の処理は,単一データに対するそれと同じである.


Figure 6. Flow diagram of TFS peak identification for multiple structures data.

由来構造の参照は,スペクトルの合成時に各ピークに対応する由来構造の識別番号を格納した由来構造インデックスファイルを使用する.これを経由して,構造データファイル中の結合表データを取得して表示可能とした.

3. 5 開発環境

本システムの開発並びに動作確認はすべて以下に示すハードウェアおよびソフトウェア環境で行った.
プログラム言語:ANSI C,VC++,FORTRAN77
GUIライブラリ:MFC (Microsoft Foundation Class Library),SDK (Software Development Kit)
グラフィックスライブラリ:OpenGL 1.1
OS:Microsoft Windows XP
ハードウェア:DELL Dimension 8100 (CPU Intel Pentium 4 1.5GHz,Memory 1GB)

4 システムの実行例

ここでは開発したシステムの機能を例示するため,12件の化学構造を対象とした簡単なテストデータファイルによる実行例を示す.Figure 7にそのデータファイルを示す.


Figure 7. A trial data set of 12 chemical structures.

4. 1 データファイルの入力とTFSの生成

データファイルを入力すると,Figure 8に示したように構造表示領域にはファイルの先頭に格納されている構造が表示される.また,データファイル中の全構造数が画面右中央の[Number of Structures]に表示される.この状態から,構造表示領域下の矢印ボタンを押すことにより,データファイル内の構造を順次表示することができる.また,構造データの参照番号を直接入力することでその構造を表示することもできる.


Figure 8. A screen image of the present system.

データファイルに対してTFSを生成するには,[TFS/W]を押す.このとき,構造表示領域左下の[Auto display]にチェックを入れると,順次TFS生成中の化学構造式を自動的に表示する.従って,データファイルを対象にTFSの一括生成が行われた場合,ファイル中の全ての化学構造に対するTFSの生成処理が完了した時点で画面に表示されている構造式は,ファイルの末尾のデータを示す.データファイルを対象としたTFSの作成時には,本システムのダイアログウィンドウ左下に,プログレスバーが表示され,TFS生成処理が終了するまでの目安となる.
12件の化学構造群データファイルに対するTFSの生成と表示をFigure 9に示す.表示されているTFSは12件分全てのTFSが合成されているものである.また,そのTFS生成におけるフラグメント数などの詳細情報の表示画面を拡大したものをFigure 10に示す.ここで示した例は12件の化学構造より生成されたTFSの合成スペクトルであり,最大ピーク値,最後尾のピーク位置,フラグメント数,ユニークなフラグメント数など12件分全て合わせた結果が表示されていることに注意すべきである.また,フラグメント数とユニークなフラグメント数の差が大きいことが分かる.これは,データファイル内の異なる構造から,同型のフラグメントが多数生成されていることを表す.


Figure 9. Synthetic spectra for 12 chemical structures in Figure 7.


Figure 10. Resulting information for the TFS generation. (Enlargement of the related part in Figure 9).

一方,TFSのピーク同定を行うに際して,Figure 9のTFSを見ると,ここでの例で示されるように,一般に合成スペクトルではそのピーク本数が多い.画面の解像度の関係から個々のピークを1つずつ区別することが難しく,スペクトル表示画面から直接,任意のピークを選択することが困難になってくる.そこで,スペクトル表示画面の拡大やスクロール機能を付加した.スペクトルの拡大,画面スクロールの例をFigure 11に示す.拡大倍率は任意に指定できる.スペクトル表示領域は,下方のスクロールバーを移動することによって,容易に変更することができる.


Figure 11. Expansion (left) and scroll (right) of the spectra.

4. 2 TFSのピーク同定

TFSピークの選択は,スペクトル表示画面上でマウス操作によって行う.TFSを拡大することによって,ピーク同定が容易になる.質量数85のピークに対するピーク同定の画面例をFigure 12に示す.このピークには62件の生成フラグメントが対応しており,そのうち38件がユニークなフラグメントであることが分かる.24件のフラグメントが重複によって省かれている.これは,ここでテストデータとして用いた12件の化学構造から多くの同型フラグメントが生成されたことを示している.


Figure 12. Snapshot of the screen at the peak identification.

また,選択されたピークに対応するフラグメントの一覧表示も可能である.Figure 13に質量数85のピークに含まれるフラグメントの一覧を示す.各フラグメントの左下に表示されている数値(例,5::3)は,そのフラグメントの出現頻度とそのフラグメントを生成した由来構造の数をそれぞれ示している.


Figure 13. Structural fragments assigned to the peak with mass number 85.

図に示された表示結果より,3行目の左から3番目のフラグメントと右端のフラグメントは同型表示されている.調査の結果,これは水素原子省略表示によるものであることが明らかとなった.このことからフラグメント表示機能に水素原子表示オプションを追加実装した.その結果,Figure 14に示されるように,水素原子の明示により,異なるフラグメントであることが分かる.これにより,重複チェックの妥当性を確認するとともに,フラグメント表示機能の有用性が示された.


Figure 14. Alternative display of the structural fragments in Figure 13. (with the attached hydrogens)

4. 3 構造データファイル参照機能

複数の構造データを対象に,一括処理による合成スペクトルの生成を行った場合に利用可能な機能として,構造データファイル参照機能を実装した.
処理の流れとしては,ピーク同定を行い,表示されたフラグメントから任意のフラグメントを選択する.フラグメントの選択は,フラグメント表示ウィンドウ上でマウス操作によって行う.システムは,選択されたフラグメントの生成元の構造(由来構造)をデータファイル内から検索し,新たなウィンドウを生成してその構造式を表示する.任意のフラグメントの選択をFigure 15に,そのフラグメントの由来構造表示をFigure 16にそれぞれ示す.この機能を利用することにより,任意のピークに対応するフラグメントの由来構造(親構造)を容易に知ることができる.特定の活性や特性を持つ複数の化学構造からなるデータファイルを用いて,合成スペクトルを生成した場合,それら化学構造に特徴的なフラグメントの抽出を行うことがき,化学構造データマイニングへの利用に有効であると考える.


Figure 15. Selection of a fragment assigned to the peak with mass number 85 to get parent structures.


Figure 16. Parent structures of the selected fragment.

5 結論

本研究では,TFSのピーク情報をもとに構造特徴解析を行うことを目的としたピーク同定システムを開発した.
本システムでは,ピーク内に含まれるフラグメントから,ユニークなフラグメントのみを抽出・表示するため,フラグメントの符号化アルゴリズムを実装した.これを,フラグメントの重複チェックに利用し,全フラグメントから,ユニークなもののみを保持することが可能となった.また,複数の構造に対する合成スペクトルの生成と,そのピーク同定も可能とした.さらに,同定したフラグメントが,データファイル内のどの構造から生成されたかを検索・表示する,構造データファイル参照機能により,注目するピーク内のフラグメントだけでなく,それを含む化学構造までも容易に知ることができる.このことは,TFSを記述子とした薬物活性クラス分類にもとづく構造活性相関や化学構造データマイニングへの新たなツールを提供するものである.

本研究は文部科学省科学研究費補助金・特定領域研究 (B)(2)(課題番号:13131210)のもとに行われたものであることを明記する.また,多くの有益な助言を頂いた審査員にこの場を借りて謝辞を表す.

参考文献

[ 1] G. Klebe, Recent developments in structure-based drug design, J Mol. Med., 78, 269-281 (2000).
[ 2] T. Okada, Characteristic Substructures and Properties in Chemical Carcinogens Studied by the Cascade Model, Bioinformatics, 19, 1208-1215 (2003).
[ 3] R. P. Sheridan, Finding Multiactivity Substructures by mining databases of drug-like compounds, J. Chem. Inf. Comput. Sci., 43, 1037-1050 (2003).
[ 4] K. A. Marx, P. O'Neil P. Hoffmn, M. L. Ujiwal, Data Mining the NCI Cancer Cell Line Compounds GU50 Values: Identifying Quinone Subtypes Effective Against Melanoma and Leukemia Cell Classes, J. Chem. Inf. Comput. Sci., 43, 1652-1667 (2003).
[ 5] Y. Takahashi, H. Ohoka, Y. Ishiyama, Structural Similarity Analysis Based on Topological Fragment Spectra, In "Advances in Molecular Similarity", 2, ed. by R. Carbo & P. Mezey, JAI Press, Greenwich, CT (1998), pp. 93-104.
[ 6] Y. Takahashi, S. Fujishima, H. Kato, Chemical Data Mining Based on Structural Similarity, J. Comput. Chem. Jpn., 2, 119-126 (2003).
[ 7] Y. Takahashi, M. Konji, S. Fujishima, MolSpace, A Computer Desktop Tool for Visualization of Massive Molecular Data, J. Mol. Graph. Model., 21, 333-339 (2003).
[ 8] S. Fujishima, Y. Takahashi, Classification of Pharmacological Activity of Drugs Using TFS-Based Neural Network, submitted.
[ 9] H. L. Morgan, The generation of a unique machine description for chemical structures, J. Chem. Doc., 5, 107-113 (1965).


Return