グリシンフィルタ縮約表現に基づくタンパク質三次元構造データマイニング

加藤 博明, 近松 信一, 高橋 由雅, 阿部 英次


Return

1 はじめに

近年、ポストゲノム計画の進展並びにタンパク質構造決定技術の進歩に伴い立体構造のデータは爆発的に増加している。こうした状況の中、アミノ酸配列間に有意な類似性がないタンパク質の間で類似の三次元構造をもつものが次々と報告され始めた[1, 2]。このような共通の局所構造特徴はモチーフとも呼ばれ、進化の過程でも良く保存され、その機能にも密接に関連する部分であると考えられる。このことから、こうしたモチーフ構造の解析、さらにはこれに基づくタンパク質の立体構造分類は、その構造-機能相関解析や遺伝情報解明の問題とも密接に関連する極めて重要な問題の一つであるといえる[3, 4]。しかし、タンパク質構造の巨大さや複雑さ、さらには近年の急激なデータ数の増大から、手動による構造モチーフの検索やその特徴解析はほとんど不可能となっている。そのため、これらのデータベースを有効に活用し、三次元構造特徴の系統的な解析(タンパク質構造データマイニング)を行なうための方法論の確立、有効なコンピュータ援用技術の開発が切望されている。
アミノ酸配列レベルでの特徴解析は比較的古くからなされており、配列アライメント手法によるホモロジ−解析など様々な方法が提案されている[5]。このうちBairochは配列レベルのモチーフ情報を文献等から広く収集して電子化したモチーフ辞書PROSITEを開発している[6]。一方、三次元構造情報の解析については大きく二種類のアプローチ、(A)タンパク質主鎖を構成するアルファ炭素(Ca)原子をもとにした原子レベル(あるいはアミノ酸残基レベル)での幾何パターンの検索、(B)二次構造セグメントを基本ユニットとした超二次構造モチーフの検索や構造比較、が考えられる。近年、特に後者の表現をもとにタンパク質の立体構造を階層分類したデータベースSCOP [7]とCATH [8]が広く利用されている。
筆者らはこれまでに、グラフ論的な部分構造検索技法を基礎とした三次元モチーフ構造検索プログラムSS3D-P/P2 [9, 10] 、さらには質問構造の設定を要求しない二つのタンパク質間の三次元共通構造特徴の自動認識プログラムAIM [11]の開発を進めてきた。SS3D-Pでは上述の(A)の視点から、タンパク質の各構成アミノ酸残基をそれぞれ一つの仮想原子とみなし構造表現の簡略化を図った。一方、SS3D-P2とAIMでは(B)の構造表現に注目し、タンパク質の全体構造をその構成二次構造セグメント単位で取り扱い、各要素をそのセグメント上のN-, C-両末端に位置する二つのアミノ酸残基で代表した高次縮約表現を導入した。ところが、前者の表現方法では依然として構造サイズが大きく、化学グラフ表現を用いたその特徴探索には組み合わせ論的な問題が発生し、一方、後者の表現では、二次構造そのものの定義にその探索結果が大きく依存する問題があった。
本研究では、タンパク質構造中のある特定のアミノ酸残基の三次元空間配置に着目した新たな構造縮約表現を定義し、これまでとは異なった視点での三次元構造データマイニングの有用性について検討を行なった。またAIMを基礎に、三分子以上の複数タンパク質構造間の共通構造特徴探索への拡張を行なうとともに、これらのプログラムを利用するためのWWWベースのインターフェースシステムの実装も併せて試みた。

2 方法

2. 1 グリシンフィルタ縮約表現

タンパク質を構成する20種類の天然アミノ酸のうち、その構造が最も単純で、出現頻度が比較的高いものがグリシン残基である。これは他のアミノ酸と異なり立体中心(不斉炭素)を持たず、側鎖の立体的な制約がないためにそのコンフォメーションは多彩である。従って、グリシンは主鎖の向きを変えるターン領域の構成など、構造的に非常に重要な役割を果たしていると考えられる[1]。例えば、神村らはアミノ酸種ごとのf - y配座パターンクラスタリングを行ない、グリシンについては五つの主要クラスタ(それ以外のものについては2または3個)が存在することを示している[12]。また、ここで使用した67種類の代表タンパク質データセット中の総アミノ酸残基数は14,723で、うちグリシンは1,345 (9.14%)であり、期待値1/20=5%に比べて高い頻度で出現している。
一方、配列モチーフ辞書PROSITE [6]を例に、これまでに報告されているタンパク質モチーフ中でグリシンがどの程度利用されているかを調査した。具体的には、定義されたモチーフパターンの中で、Table 1の下線部のように明示的に単独でグリシン(G)が記述されている(すなわち、その位置にはグリシン以外は許容されない)パターンを含むものに注目した。PROSITE Rel. #17.01に登録されているモチーフパターン1,314件中、このようなグリシンが2個以上含まれているモチーフは280件あり、また明示的パターンの総数に対する出現頻度は18.30%と、20種類のアミノ酸の中で圧倒的に高かった。なお、次いで頻度の高いものは、システイン(C: 11.90%)、アスパラギン酸(D: 6.71%)、プロリン(P: 6.63%)の順で、逆に最も頻度の低いものはメチオニン(M: 0.81%)であった。以上のことから、グリシンは配列レベルのモチーフ表現でも非常に重要な役割を果たしている特徴的なアミノ酸であるといえる。

Table 1. An example of the sequence motif pattern in the PROSITE database.


Figure 1. Various reduced representations of a 3D protein structure in the present work. The chain A of nitrogenase (1NIP) is displayed. The NifH/frxC_1 motif site and the corresponding iron-sulfur (Fe4S4) cluster are also shown in models (c) and (d).

本研究ではグリシンの三次元配置に注目し、タンパク質の立体構造をその中に含まれるグリシン残基の集合で代表して表現する。具体的には、タンパク質構造中のグリシン残基をそれぞれ一つの仮想原子とみなし、対応する各残基のCa原子の座標を用いて近似することにより構造表現の縮約(グリシンフィルタ縮約表現)を行なった。Figure 1nitrogenase (PDB ID: 1NIPA)を例として、(a)全原子表現、(b)アミノ酸残基(Ca原子)単位縮約表現、(c)二次構造セグメント単位縮約表現、(d)グリシンフィルタ縮約表現、の各構造イメージ図を示す。この例では、アミノ酸残基レベルのサイズ(構成残基数)274に対し、グリシンフィルタではその数が27(10%)に縮約される。また、このタンパク質はTable 1に示したNifH/frxC_1モチーフを持ち、鉄-硫黄(Fe4S4)クラスタとの結合に関与していることが知られている[13]。しかし、a-ヘリックスとb-ストランドを要素とした従来の二次構造セグメント単位の縮約表現では本モチーフ部位(太線部分)の情報は省略され、その特徴抽出を行なうことはできない。ここで定義したグリシンフィルタはこれらの問題を回避し、従来のものとは異なる視点での構造特徴探索を可能にする。なお、Figure 1ではその位置関係を明示するため、タンパク質の主鎖構造や含まれている鉄-硫黄クラスタの構造情報とともにグラフィックス表示したが、本表現で取り扱う情報はグリシン残基(この例では27個)の座標情報のみであることに注意されたい。

2. 2 三次元構造データマイニング

以上のように表現された各タンパク質分子の構造は、その構成グリシン残基をノードとし、それらの間の幾何学的関係(Ca原子間距離)の情報をエッジ上に重み付けた、エッジ重み付き完全グラフとして表現することができる。本研究では、このグラフ表現をもとに、タンパク質の三次元構造特徴探索の問題をグラフのマッチング問題として取り扱い、筆者らが先に報告したAIM [11] 及びSS3D-P/P2 [9, 10]を利用した構造データマイニングを試みた。従来の二次構造セグメント単位の縮約表現を例に、その基本概念図をFigure 2に示す。


Figure 2. Basic concept of the 3D protein structural data mining in the present work.

タンパク質三次元構造データベースから抽出した一群のタンパク質、例えば共通の機能を持つ二つのタンパク質構造から、AIMを用いてその三次元共通構造特徴を探索する(Figure 2 (a))。ここで得られた共通構造特徴はその機能に密接に関連する部位、すなわち三次元モチーフ(候補)部位であることが期待できる。さらに、こうして得られた構造特徴、あるいは既に報告されているモチーフ情報をクエリーとして、SS3D-P/P2を用いて構造データベースに対する三次元部分構造検索を行なうことができる(Figure 2 (b))。

2. 3 三分子以上の共通構造特徴探索への拡張

原理的には、従来のAIMで実装した二分子間の共通構造特徴自動探索アルゴリズム[11]を拡張し、そのドッキンググラフの次元数を増やすことにより、そのまま三分子以上に適用することが可能である。しかし、この場合、考慮するタンパク質構造数の増加とともに、そのドッキンググラフ生成、あるいはクリーク探索に要する計算量並びに記憶容量が爆発的に増加する。そのため、本研究では、最初に二つのタンパク質構造(それぞれ、#1, #2と表記する)を選択し、その二つについて、これまでと同様にドッキンググラフの生成を行なう。そして、そのドッキンググラフからクリーク候補(共通部分構造)が探索されるごとに、その対応パターンがその他のタンパク質構造中(#3, #4, ..., #n; ここでnは考慮するタンパク質構造数)に含まれるか否かを調査する近似的な方法を採用した。この過程をマッチング処理と呼ぶ。これは、リファレンス・タンパク質(ここでは#1とする)中のクリーク候補対応部位を質問構造パターンとした、三次元部分構造検索処理に相当する。そして、#3, ..., #nの全てのタンパク質構造に対してマッチングが成功、すなわち、データセット中の全てのタンパク質がこのリファレンス部位に対応する三次元部分構造を含んでいたとき、その部分構造を共通構造(クリーク)候補として格納する。ここまでの処理の流れをFigure 3 (a)に示す。
ところで、本法ではドッキンググラフ生成時に、エッジ重み(残基間のユークリッド距離)の等価性の定義に許容度を設定しているため、上記のマッチング処理による共通構造の探索結果に矛盾が生ずる可能性がある。例えば、Figure 4のような三つの分子グラフを考える。距離の許容度をdとすると、#1と#2との対応するエッジ、及び#1と#3とのそれは、それぞれ許容度内であり等価であるとみなされる。しかし、#2と#3との間の関係はその差が2dとなり、この許容度では等価とはみなされない。このため、本研究では生成した各タンパク質の対応部位間の全ての組み合わせにおいて、許容度のチェック(相互許容度チェック処理)を行なうこととした(Figure 3 (b))。なお、これら一連の操作は、高橋らが別途開発した有機低分子を対象とした三次元共通幾何パターン自動認識システムCOMPASS [14]で採用されている基本アルゴリズムを改訂して用いた。


Figure 3. Schematic flow of the program AIM for three or more proteins. It consists of two major parts: (a) a matching process, and (b) an allowance checking process.


Figure 4. Edge equality with a distance allowance for three or more proteins.


Figure 5. Snapshots of the WWW interface for the 3D protein structural data mining system, AIM and SS3D-P/P2.

2. 4 WWWインターフェースの開発

以上のプログラムは、UNIX上でC言語を用いてCUI (Character User Interface)のプログラムとして実装した。本研究では、これらを利用した解析作業を支援するため、WWWベースのインターフェースツールを併せて開発した。本ツールはPerlを用いてCGI (Common Gateway Interface)として作成した。また、探索された三次元構造特徴を直観的に確認・検証するために、MDL社のChimeプラグイン[15]を利用して、そのタンパク質構造及び対応部位をグラフィックス表示できるように工夫した。システムの実行画面例をFigure 5に示す。

3 結果と考察

3. 1 Rossmann-foldモチーフ

alcohol dehydrogenase, lactate dehydrogenase, glyceraldehyde-3-phosphate dehydrogenaseの間には、そのアミノ酸配列には相同性が見られないが、NAD結合ドメインの三次元構造はよく類似していることが知られている[1, 4]。このドメインは、6本の平行ストランドからなるオープンbシートで、シートの両面にはヘリックスがある。この構造特徴は、NAD結合モチーフ、またはRossmann-foldモチーフと呼ばれている[7, 16]。PDB (Protein Data Bank) [17]から抽出したこれらの三つのタンパク質1HDXA, 9LDTA, 1CEROを例に、AIMを用いた三次元共通構造特徴の探索実験を試みた。
従来の二次構造セグメント単位の縮約表現を元に、距離の許容度6.0A・二次構造セグメントの種類や向きを区別、の探索条件の下でAIMによって得られた結果をTable 2に示す。リファレンス分子である1HDXAに注目すると、この条件ではサイズ(二次構造セグメント数)が最大となるような共通構造特徴として三つの異なるパターンが同定され、このうち3番目のパターンは、それぞれRossmann-foldを形成する6本の平行ストランドに対応するものであることが確認できた(Figure 6 (a))。一方、同データセットに対して、グリシンフィルタを用いて距離の許容度4.0Aの条件の下で探索を試みたところ、グリシン8残基から構成される三次元共通構造特徴が計28パターン同定された。このうちの一つをTable 3に、それをグラフィックス表示した例をFigure 6 (b)に示す。グリシンフィルタでは従来のものとは異なる構造特徴表現が可能であり、この例の場合、ともにNAD結合ドメイン周辺に存在する三次元構造特徴(モチーフ候補部位)が抽出されたことが確認できた。

Table 2. Three-dimensional common structural features between three dehydrogenase proteins based on the SSE-level reduced representation.

* Each SSE segment on the identified site is shown with a pair of amino acid identifiers of the N-terminal and the C-terminal side.

Table 3. An example of the 3D common structural feature between three dehydrogenase proteins based on the Gly-filter reduced representation.


Figure 6. Graphical views of the 3D common structural features found by AIM.

なお、これら三つのタンパク質の構成アミノ酸残基数の平均値345に対し、二次構造セグメント数は31、グリシン数は29であり、探索に要したCPU時間はグリシンフィルタの場合で約10分(Pentium4 2.8GHz, RAM 1GB, FreeBSD-4.8の動作環境)であった。

3. 2 NifH/frxCモチーフ

次に、Figure 1で示したタンパク質nitrogenase (1NIPA)中のNifH/frxC_1 (Table 1)、及び関連するNifH/frxC_2 (PA: D-x-L-G-D-V-V-C-G-G-F-[AGSP]-x-P.)の二つのモチーフ部位[6](E87-G99, D125-P138)に含まれている7個の明示的なグリシン残基(G 89 G 90 G 96 G 99 G128 G133 G134)を切り出し、この部分構造(すなわち、7個のグリシン残基中のCa原子の三次元座標情報)をクエリーとしてSS3D-Pによる三次元部分構造検索を試みた。ここでは、Hobohmらによる代表データセットのリスト[18]を参考に、PDB Rel. #102から抽出したX線結晶解析法で決定された1,299鎖に、このNifH/frxCモチーフを持つことが知られている1CP2Aを加えた合計1,300鎖(1,206タンパク質)からなるテストデータベースを作成し、グリシンフィルタで縮約表現した。このデータベースに対して、距離の許容度3.0Aの検索条件のもとでヒットした20タンパク質のPDB IDとタンパク質名、およびそれらのサイズ(構成アミノ酸残基数とグリシン数)をTable 4に示す。なお、検索に要したCPU時間は先と同様の動作環境で約2秒であった。

Table 4. Result of the NifH/frxC motif search for 1,300 protein structures based on the Gly-filter reduced representation.

* "Gly" shows the number of glycine residues, and "Res" shows the number of all amino acid residues for each protein structure, respectively.

Table 5. An example of the hit proteins and the detected sites corresponding to the query pattern.


Figure 7. Graphical views of the hit proteins and the detected sites found by SS3D-P. The NifH_1 & 2 motif site (only for 1CP2A) and the corresponding iron-sulfur related cluster are also displayed.

PROSITEの情報によると、クエリーと同じNifH/frxCモチーフを持つものはテストデータセットの中で1CP2Aだけであり、またヒットした20タンパク質の間に共通して含まれるようなモチーフも見出せなかった。Table 4のうち、1E2UA, 1QH8A, 1HLRA及び1CP2Aの四つのタンパク質についてクエリーパターンにヒットした部分構造情報(7個のグリシンの対応関係)をTable 5に抜粋した。1CP2A中のヒットした7個のグリシン残基と、二つのNifH/frxCモチーフ部位、ならびに鉄-硫黄クラスタの位置をグラフィックス表示した例をFigure 7 右下に示す。これらの結果から、対応する既知の配列モチーフ部位(クラスタ結合部位)が正しく同定されたことが確認できた。一方、他の三つのタンパク質は、この配列パターンには該当しないが、クエリーパターンと同様の7個のグリシンからなる対応部位を検索することができた。これらのタンパク質について、さらに詳細に調査したところ、いずれも鉄-硫黄に関連するクラスタを含んでおり[19, 20]、それぞれ検索された対応部位の周辺に位置していることが分かった(Figure 7)。また、ヒットしたタンパク質のうち1HUXA, 1G8KA, 1JNRAについても、空間的な位置関係はクエリーのものとやや異なるものの、同じく鉄-硫黄クラスタを持つものであった。なお、その他のタンパク質ではこれらの特徴は見出せなかった。
このように配列的な関係も大きく異なる多くのタンパク質構造で、クラスタの周辺環境にグリシンの類似の三次元構造特徴が見出せたことは非常に興味深い結果であり、本法による新規モチーフ発見の可能性を強く示唆するとともに、大量情報に対応したタンパク質三次元構造データマイニングの道を切り拓くものと考える。

4 おわりに

本研究では、その構造的自由度の高さからこれまであまり重要ではないと考えられていたグリシン残基の三次元配置に注目した構造縮約表現を定義し、従来の主鎖や構成二次構造セグメントに沿った表現とは異なる視点による三次元構造データマイニングを実現した。改良したAIMを用いて、三つのdehydrogenaseタンパク質を対象に特徴探索を行なった結果、NAD結合ドメインに関連する三次元共通構造特徴を同定することができた。一方、NifH/frxCモチーフ中の7個のグリシンの三次元配置をクエリーとした三次元部分構造検索の例では、いくつかの検索された部位の周辺にクエリーと類似のクラスタ結合部位を見出すことに成功した。これらの成果は、新規モチーフの探索を含め、データベースを活用したタンパク質の三次元構造特徴の系統的な解析を行なう上で極めて有益な情報を提供するものと考える。本研究で開発したWWWベースのインターフェースシステムは下記のURLで公開を予定している。
http://prodb.cilab.tutkie.tut.ac.jp/services/

なお、本研究は財団法人堀情報科学振興財団の研究助成のもとに行われたものであることを明記して謝意を表す。

参考文献

[ 1] Branden, C. and Tooze, J., Introduction to Protein Structure, Garland Publishing, New York (1991).
[ 2] 高木利久, 冨田勝, ゲノム情報生物学, 中山書店 (2000).
[ 3] Thornton, J. M. and Gardner, S. P., Protein Motifs and Database Searching, Trends Biochem. Sci., 14, 300-304 (1989).
[ 4] 美宅成樹, 榊佳之, バイオインフォマティクス, 東京化学同人 (2003).
[ 5] Gribskov, M. and Devereux, J., Sequence Analysis Primer, Stockton Press, New York (1991).
[ 6] Bairoch, A., PROSITE: a Dictionary of Sites and Patterns in Proteins, Nucleic Acids Res., 19, 2241-2245 (1991).
http://www.expasy.org/prosite/
[ 7] Murzin A. G., et al., SCOP: a Structural Classification of Proteins Database for the Investigation of Sequences and Structures, J. Mol. Biol., 247, 536-540 (1995).
http://scop.mrc-lmb.cam.ac.uk/scop/
[ 8] Orengo, C.A., et al., CATH- A Hierarchic Classification of Protein Domain Structures, Structure, 5, 1093-1108 (1997).
http://www.biochem.ucl.ac.uk/bsm/cath/
[ 9] Kato, H. and Takahashi, Y., Three-Dimensional Structural Feature Search of Proteins, Bull. Chem. Soc. Jpn., 70, 1523-1529 (1997).
[10] Kato, H. and Takahashi, Y., SS3D-P2: a Three-Dimensional Substructure Search Program for Protein Motifs Based on Secondary Structure Elements, Comput. Appl. Bio. Sci., 13, 593-600 (1997).
[11] Kato, H. and Takahashi, Y., Automated Identification of Three-Dimensional Common Structural Features of Proteins, J. Chem. Soft., 7, 161-170 (2001).
[12] Kamimura M. and Takahashi Y., f - y Conformational Pattern Clustering of Protein Amino Acid Residues Using The Potential Function Method, Comput. Appl. Bio. Sci., 10, 163-169 (1994).
[13] Georgiadis M.M., et al., Crystallographic Structure of the Nitrogenase Iron Protein from Azotobacter Vinelandii, Science, 257, 1653-1659 (1992).
[14] Takahashi, Y. et al., Automated Recognition of Common Geometrical Patterns Among a variety of Three-Dimensional Molecular Structures, Anal. Chim. Acta., 200, 363-377 (1987).
[15] MDL Inc., http://www.mdli.com/
[16] Rossmann, M.G. et al., Chemical and Biological Evolution of a Nucleotide-Binding Protein, Nature, 250, 194-199 (1974).
[17] Helen, M., et al., The Protein Data Bank, Nucleic Acids Res., 28, 235-242 (2000).
http://www.rcsb.org/pdb/
[18] Hobohm, U., et al., Selection of Representative Protein Data Sets, Protein Sci., 1, 409-417 (1992).
[19] Willy A. M. , et al., The Hybrid-Cluster Protein (Prismane Protein) from Escherichia Coli, Eur. J. Biochem., 267, 666-676 (2000).
[20] Suzanne M. , et al., New Insights into Structure-Function Relationships in Nitrogenase, J. Mol. Biol., 292, 871-891 (1999).


Return