化学物質の構造類似性にもとづくデータマイニング

高橋 由雅, 藤島 悟志, 加藤 博明


Return

1 はじめに

「AはBに似ている」,あるいは「CはDと××が似ている」といったいわゆる“類似性”の概念は科学における様々な問題解決の場で利用される極めて重要な概念の一つである.このことは化学の分野においても例外ではなく,その対象となる分子の間の類似性がしばしば言及される [1, 2].特に,これまでの明示的な部分構造マッチングとは別に,“似た構造”あるいは“似た反応”といったいわゆる化学的な“類似性”の概念を如何に取り扱うかは,関連分野におけるコンピュータのより高度な利用を図る上で極めて重要な問題の一つであり,こうした分子の類似性の概念に基礎を置く,より柔らかな構造情報処理に向けた新たな技術の確立が望まれている.
ところで,“分子の類似性”と言っても,その対象は様々である.例えば化学構造の類似性のほかにも,融点・沸点などの物理的な特性に注目した類似性,さらには生物学的な作用に関する類似性など,その取り扱う問題によって以下のように様々な視点がある.
  1. 生物学的活性に関する類似性.
  2. 物性に関する類似性.
  3. 化学反応に関する類似性.
  4. 分光スペクトルの類似性.
また,化学物質の種々の性質はその化学構造と密接に関連していることは明らかであり,その関係は次のように表すことができる.

このことは,化学構造が変われば物質の性質もこれに応じて変わるとの考えを示したものにほかならない.言い替えれば,化学物質の種々の性質についてその類似性を比較・検討することは,その起因となる化学構造の類似性を解析することと等価な問題と見なすことができる.
化学物質の構造類似性を評価するにはまず初めに,個々の分子の構造特徴を調べる必要がある.いわゆる構造特徴解析である.その代表的なものには部分構造検索の技法 [3] を基礎とした官能基解析 [4] や部分構造解析 [5],構造中の ring system に注目した環解析 [6] などがある.これらは特定の官能基や環構造の有無あるいは数を調べ,個々の分子の構造特徴を記述するのに用いられる.そしてこれらの部分構造特徴のうち比較対象とする化合物間に共通に含まれるものを調べ,その構造間の類似性を比較・評価するための様々な試みが報告されている [7, 8].一方,これとは別に,解析の対象とする化合物間の最も大きな部分構造を探索するMCS (Maximum Common Substructure)の問題もまた構造類似性解析と密接に結び付けられる [9].現在,主にドラッグデザインの分野を中心に,そのシステム化に向けた様々な試みの中でこうした共通構造特徴解析の問題はトポロジカルあるいは2次元構造式レベルのみならず3次元構造レベルでの解析も行われるようになってきた[10, 11].そしてこれらの明示的な共通構造特徴解析の考え方はそこでの要素技術である2次元ならびに3次元部分構造検索と共に,いわゆる“形状の類似性”などに注目したより柔らかな構造情報処理の問題へと引き継がれている.
本研究は化学構造全体から見た漠然とした”類似性”も含め,これらの定量的な評価の方法並びにそのシステム化に必要な要素技術の確立と化学データマイニングへの積極的な活用を目指すものである.分子構造の類似性評価に関する研究は新薬開発やこれに関連した類似化学物質の検索あるいは分子の特性予測問題に関連して現在活発に研究が進められている分野である.先に述べたように,これまでこれらの研究では,トポロジカル,2次元,3次元を問わず,化合物間の構造類似性を評価するための構造情報記述子としては予め注目される特定の部分構造特徴(官能基)が用いられてきた.しかしながら,こうしたアプローチではその類似性評価の結果は構造特徴を記述するために事前に定義された部分構造集合に大きく依存することが避けられない.そこで,本研究では筆者らが先に提案したトポロジカルフラグメントスペクトル(Topological Fragment Spectra, TFS) [12] による新たな構造情報の記述手法を利用した構造類似性の定量的評価のための方法をもとに,特定の部分構造の有無のみならず化学構造全体の漠然とした類似性をも考慮したより柔らかな構造情報の取り扱いとその化学データマイニングへの応用に向け,その有用性を実用規模のデータベースを用いて検討した.

2 方法

2. 1 TFSによる構造特徴の定量的記述表現

TFSとは化学物質の構造式から可能な部分構造を列挙し,その数値的な特徴づけにもとづいて化学物質のトポロジカルな構造プロフィールを多次元数値ベクトルとして表現しようとするものである.その生成手順は,(1)構造情報の記述表現に際しては化学構造式の原子を点(頂点),結合を辺と見なし,原子や結合の種類の相違を区別する重み付きグラフ(化学グラフ)として取り扱う.ただし,水素原子はすべて省略する.(2)与えられた構造式に対応する化学グラフから可能なすべての部分グラフを列挙する.ここでは,親グラフ(もとの化学グラフ)中の異なる要素からなる部分グラフについては同型のものも全て考慮した.(3)次に,得られた個々の部分グラフの定量的特徴づけを行う.これらの特徴づけには様々な方法が考えられる.たとえば,与えられた親グラフの各頂点原子をその隣接原子の数でラベルづけし,生成された部分グラフをこれらの総和によって特徴づけを行えば化学構造を単純グラフと見なした場合の骨格のトポロジーを表す特性スペクトルを得ることができる.また,生成された部分グラフを各部分グラフ中の頂点に対応する原子の質量数の総和(フラグメント重量)によって特徴づければ,原子の種類を考慮した構造フラグメントに関する特性スペクトルを得ることも可能である.
本研究では生成フラグメントの特徴づけに対しては後者のフラグメント重量を用いた.結合水素原子を有するものについてはそれを含めた拡張原子として各頂点の重みづけを行った.このようにして特徴づけられた個々の部分グラフ(構造フラグメント)集合をもとに,その特徴指数に従って度数を調べ,その結果をヒストグラム表示したものがここでのTFSとなる.これら,TFS生成手順の概要をFigure 1に示す.TFSは一種のデジタルスペクトルと見なすことができる.これはまた多次元数値パターンベクトルとして取り扱うことができ,そのパターン間の類似性評価に対しては,種々の類似度関数の適用が可能となる.


Figure 1. An illustrative scheme of the procedure of TFS generation.

2. 2 類似度評価関数

化学物質の構造類似性の評価に際しては,「構造情報をどのように表現するか」がきわめて重要となることは言うまでもない.この他,もう一つ,その評価結果を大きく左右するものに評価関数を挙げることができる.すなわち,定量的に記述表現された構造情報の数値記述子を「どのような関数を用いて評価すればより適切な結果を得ることができるのか?」,という問題である.
ここでは,このような視点から5種の異なる類似度(あるいは相違度)関数を対象とし,ここでのTFS法を利用した構造類似性評価における各々の関数の適否並びに相互の結果の比較検討を行った.類似度の評価には様々な評価尺度の利用が考えられる.本研究では,評価尺度としてユークリッド距離(SED),Tanimoto 係数(実数データ)(TC),Tanimoto 係数(バイナリ・データ)(TB),Cosine係数(SC),ピアソンの積率相関係数(SP)の五つの相違度または類似度関数を利用可能とした.ここでxikxjkはそれぞれ化合物iおよび化合物jについてのk番目の記述子の値を表す.
(a) ユークリッド距離(SED):

(b) Tanimoto係数(TC):

(c) Tanimoto係数(二値データ)(TB):

(d) Cosine係数(SC):

(e) Pearson's相関係数(SP):

尚,式(4)においては各TFSをピークの有無にしたがって‘1’または‘0’の値をとる2値スペクトルに変換している.ここでは,Q はQuery構造のTFS中で値が‘1’の要素の数,D はデータベース中の比較する構造のTFS中に含まれる値が‘1’のTFS要素の数,C はQuery構造およびデータベース構造の両者にともに値‘1’をもつ要素の数を表す.

2. 3 データセット

本研究ではDarwent社より市販されているWorld Drug Index(WDI)より,ドーパミン活性を有する化合物117件を抽出し,その他ランダムに抽出した化合物を加えることによって3,637件からなる薬物構造データベースを作成し,テストデータベースとして用いた.

3 結果及び考察

上記の考えをもとに,化学物質の構造類似性評価におけるTFS法の有用性と薬物構造データベースを対象としたデータマイニングへの応用の可能性を検証するため,上述のWorld Drug Index より抽出した3,637件の薬物構造データベースを対象に,これら全ての化合物に対するTFSを生成,データベースを作成し計算機実験を行った.著者らは先に,TFSを利用した類似構造検索において,生成フラグメントの完全列挙により得られる全スペクトルと生成するフラグメントのサイズを制限することによって得られる部分スペクトルとの比較の中で,両者が良好な相関を有することを示した.このことから,本実験ではTFSの生成に際してはサイズ(生成部分構造に含まれる結合の数)が5までのフラグメントにもとづくTFSを生成,利用した.ここで用いたサイズ‘5’は,ベンゼン環上のpara位に位置する原子間のパスが直接記述可能であることを意図したものである.
作成したTFSデータベースをもとに,ドーパミンをQueryとした類似性検索を試みた.ドーパミンの化学構造とそのサイズ5までの生成フラグメントにもとづくTFS QueryパターンをFigure 2に示す.はじめに,類似性の評価関数として単純ユークリッド距離を用いて検索を試みた.本研究では,後述の種々の評価関数による検索結果の比較を容易にするため,全ての検索実験において,類似度の高い(距離の小さい)ものから上位20件を検索した.ユークリッド距離を用いて検索されたこれら20化合物の構造式一覧をFigure 3に示す.


Figure 2. TFS of dopamine that was characterized by the sum of atomic mass numbers.


Figure 3. Result of structural similarity searching for a query of dopamine by TFS method. (Twenty most similar compounds found by Euclidean distance). The asterisk in the table shows that the compound is dopaminergic active.

Figure 3から明らかなように構造的によく似ているものが上位にランク付けされている.また,ここではQueryであるドーパミン自身がデータベース中に異なる商品名で2件含まれており,これらの二つが距離ゼロで最初に検索されていることがわかる.
次に,TFS法における類似性評価に際しての種々の類似度関数の適否について検討を行った.評価尺度としてユークリッド距離(SED)のほか, 方法の部で述べたTanimoto 係数(実数データ)(TC),Tanimoto 係数(バイナリ・データ)(TB),Cosine係数(SC),ピアソンの積率相関係数(SP)について検討を行った.これらの検索実験の結果をまとめてTable 1に示す.ここで,Table 1のRankは各評価尺度での類似度の順位を示しており,valueはそれぞれの評価関数の値を示す.類似性評価尺度としての評価関数の値を相互に直接比較することはできないが,各検索結果の20位に位置する構造の類似度を比較すると,用いた4つの尺度のうちではTanimoto係数(TC)が最も厳しい評価値を与えていることがわかる.

Table 1. Results of similar structure search for dopamine by different similarity functions.

* Asterisk shows that the compound is dopaminergic active.

次に,これらの結果をもとに,評価関数の違いによる検索結果の相違を共通にヒットした化合物数の割合(重なり率)によって比較した.これらの結果をまとめてTable 2に示す.

Table 2. The rate of structures shared by the searching results with different measurement functions.
SEDTBTCSCSP
SED1.000.150.900.650.60
TB1.000.150.200.15
TC1.000.650.55
SC1.000.80
SP1.00

Table 2より,ユークリッド距離とTanimoto係数(TC)を用いた場合の結果に注目すると,重なり率は0.9となり上位20化合物のうち18化合物が両者に共通であることが分かる.また,Figure 3Table 1の検索結果の順位リストをみると,TCの類似度が0.8以上の類似性の高い構造16件についてはその全てがユークリッド距離による検索の上位20件の中にヒットしていることがわかる.このことはTFSを基礎とした構造類似性検索においてはこれらの評価関数はほぼ同様な結果を与えることを示唆している.比較のため,Figure 4 にTanimoto係数(TC)による検索結果の構造式一覧を示す.また,これとは別に,cosine係数とピアソンの相関係数の間においても重なり20件中16件(重なり率0.8)の構造が共通にヒットしており,その順位リスト(Table 1)をからも相互に高い相関を有することがわかる.それぞれの評価関数によって検索された構造式一覧をFigure 5, Figure 6に示す。


Figure 4. Twenty most similar structures obtained by Tanimoto coefficient (TC).


Figure 5. Twenty most similar structures obtained by cosine coefficient (SC).


Figure 6. Twenty most similar structures obtained by correlation coefficient (binary, SP).

一方,TFSの2値表現を基礎としたTanimoto係数(TB)は他の類似度関数を用いた場合に比べ, 大きく異なる検索結果を与えていることが分かる(Table 2).このことはFigure 7に示した検索結果の構造式一覧からも明らかである.すなわち,上位20 件での検索の結果を比較すると,ユークリッド距離, Tanimoto係数,cosine係数,ピアソンの相関係数に対し,それぞれヒットした化合物の重なり率は,0.15,0.15,0.20,0.15であり,検索結果の重なりは極めて小さな値を示している.これは,データのバイナリ化を基礎としたTanimoto係数(TB)が,TFSの類似度評価に際してスペクトルの強度(頻度)情報を利用していないことによるものと考えることができる.


Figure 7. Twenty most similar structures obtained by Tanimoto coefficient (binary, TB).

以上のことから,本研究で使用した上記TFSにもとづく構造類似性評価のための5種類の評価関数は(1)ユークリッド距離,Tanimoto係数,(2)cosine 係数,Pearsonの相関係数,(3)Tanimoto係数(2値データ)の3つの異なるグループに大別できる.ここで,(1)はTFSのピーク強度を直接考慮した方法であり,他の方法に比べて分子のサイズに関する情報が反映されたものとみなすことができる. これに対して(2)はTFSのピーク強度そのものよりはスペクトルパターンの相対的な変化を考慮したものであり,検索実験の結果からも(1)に比べてサイズ依存性が低いことが分かる.また,(3)はその定義から明らかなようにピークの強度情報は利用していないことから,特に本実験で使用した部分スペクトルによる類似性検索においてはサイズ依存性のない方法とみなすことができる.
これらのことは類似性検索の結果にもよく反映されている.ここでの構造類似性検索実験にQueryとして用いたドーパミンは神経伝達物質としての作用を示すことが知られている.上記の検索結果をもとに得られた構造類似化合物についてのドーパミン様活性の有無を調べてみたところ,それぞれQueryのドーパミン以外に複数の化合物が同活性を有するものであることが明らかとなった.これらの構造についてはFigure 3の順位リストおよびTable 1に*印を付して示した.本研究で使用したデータセット(3,637件)中には重複も含め117件のドーパミン様活性化合物が含まれている.しかしながら,この中には構造的に大きく異なるアポモルフィンの誘導体や類縁体が多数含まれており,ドーパミンの直接的な誘導体と考えられる単環系の活性化合物は全部で10件(9種)であった。このうち,(1)の二つの方法(ユークリッド距離,Tanimoto係数)ではそれぞれ5件(4種),6件(5種)の構造をヒットしている.一方,(2),(3)の方法では互いに(1)とは異なる活性化合物の構造もヒットしている.また,(3)のTanimoto係数(2値データ)においては,サイズ的にも多様な構造をヒットしていることが分かり興味深い.これらの結果はTFSを利用した構造類似性にもとづくデータマイニングの有用性を示唆するとともに,ここでの類似度評価のための評価関数はその特質によって3つの異なるグループに分けられ,これらを併用することによって視点の異なる構造データマイニングが可能であることを示している.

4 おわりに

以上,本研究では実用規模の薬物データベースを用いた類似構造検索の実験を通じて,TFS表現にもとづく構造類似性評価を基礎とした化学データマイニングの有用性を示した.また,あわせて筆者らの提案するTFS法を用いた構造類似性評価における類似度関数相互の関係を解析するとともに,その適否を検討した.しかしながら,TFSを利用した構造類似性解析においてはどの類似度関数が最適であるかを結論づけることは困難であり,特に構造データマイニングの視点からは特質の異なる複数の類似度(相違度)関数を目的に応じて利用することが重要と思われる.

尚,本研究の一部は文部科学省科学研究費補助金(特定領域研究 B 2)(課題番号:13131210)のもとに行われたものであることを明記して謝意を表す.

参考文献

[ 1] Johnson M. A., Maggiora G. M., Concepts and Applications of Molecular Similarity, Wiley, New York (1990).
[ 2] Carbo R., Molecular Similarity and Reactivity, Kluwer Academic Publishers, Boston (1995).
[ 3] Sussenguth, Jr. E. H., A Graph Theoretic Algorithm for Matching Chemical Structures, J. Chem. Doc., 5, 36-43 (1965).
[ 4] Cramer III, R.D., Redl G., Berkoff C.E., Substructural Analysis: Novel Approach to the Problem of Drug Design, J. Med. Chem., 17, 533 (1974).
[ 5] Adamson G.W., Bush J.A., Evaluation of an Empirical Structure- Activity Relationship for Property Prediction in a Structurally Diverse Group of Local Anaesthetics, J. Chem. Soc. Perkin Trans. I, 168-172 (1976).
[ 6] Downs G.M., Gillet V.J., Holiday J.D., Lynch M.F., Review of Ring Perception Algorithms for Chemical Graphs, J. Chem. Inf. Comput. Sci., 29, 172 (1989).
[ 7] Stanton D.T., Morris T.W., Roychoudhury S., Parker C.N., Application of Nearest-Neighbor and Cluster Analysis in Pharmaceutical Lead Discovery, J. Chem. Inf. Comput. Sci., 39, 21-27 (1999).
[ 8] Bajorath J., Selected concepts and Investigations in compounds classification, molecular descriptor analysis, and virtual screening, J. Chem. Inf. Comput. Sci., 41, 233-245 (2001).
[ 9] Takahashi Y., Identification of structural similarity of organic molecules, Topics Curr. Chem., 174, 105-133 (1995).
[10] Thorner D.A., Wild D.J., Willett P., Wright P.M., Similarity Searching in Files of Three-Dimensional Chemical Structures: Flexible Field-Based Searching of Molecular Electrostatic Potentials, J. Chem. Inf. Comput. Sci., 36, 900 (1996).
[11] Rarey M., Stahl M., Similarity searching in large combinatorial chemistry spaces, J. Computer-Aided Mol. Des., 15, 497-520 (2001).
[12] Takahashi Y., Ohoka H., Ishiyama Y., Structural Similarity Analysis Based on Topological Fragment Spectra, Advances in Molecular Similarity, 2, 93-104 (1998).


Return