サポートベクターマシンによる多種類の化学物質の発ガン性の予測
田辺 和俊, 鈴木 孝弘, 貝原 巳樹雄, 小野寺 夏生
Return
1 緒 言
環境中に存在する化学物質の内で発ガン性が判明しているものは僅少であるが、発ガン性未知の化学物質に対してすべて動物実験を行うことは経済性や動物愛護等の観点から不可能である。そこで、定量的構造活性相関(QSAR)に基づいて、発ガン性を化学構造から予測する手法が注目され、多くの研究が行われている。現状では、構造の類似した幾つかの同族体群については発ガン強度と構造記述子との間に相関の高い回帰式が見出されているが [1]、不特定の構造の化学物質について発ガン性を高い精度で予測することはきわめて困難である。2000-2001年に行われたPredictive Toxicology Challenge(PTC)でも多種類の化学物質の発ガン性について多彩な予測手法が競ったが、予測精度の最高は70 % 程度であった [2, 3]。
不特定の構造の化学物質に対する予測が困難な原因の1つとして、非同族体の発ガン性を化学構造のみから統一的に予測できるかという問題がある。元来、Hansch-FujitaによるQSAR [4] は同族体を対象としている。しかし、化学物質による発ガンに関しては、「多段階発ガン説」[5] に象徴されるように発ガン機構がきわめて複雑であること、また化学物質によって作用する機構が異なること [6] 等を考えると、非同族体の発ガン性の統一的な予測は容易ではない。
我々はこのようなきわめて複雑な予測問題にはニューラルネットワーク(ANN)が有効と考え、これを用いて非同族体の発ガン性予測を検討し、PTCコンテストの参加者の最高を越える予測精度を得ることができた [7]。しかし、ANNでは多数の局所解の存在のために最適解が得られたか明らかではなく、予測精度を確定できないという問題があった。
一方、近年、非線形解析法として注目されているサポートベクターマシン(SVM)[8] は局所解の問題がないことや、処理がきわめて高速なため大規模な問題でも容易に実行できること等の利点があり、化学・薬学の様々な問題にも適用されてきている [9]。発ガン性を含む毒性予測についてもこれまで多数の報告があるが [10 - 21]、大規模な非同族体の発ガン性予測への適用例はない。そこで本研究では、前報のANNと発ガン性予測性能を比較するために、PTCの非同族体の発ガン性データをSVMで解析し、予測精度やモデリングの最適化の違いなどの点について考察した。
2 方 法
2. 1 SVMによる解析
SVMのソフトウェアとして、LIBSVM ver.2.85 [22] を用いた。LIBSVMには、分類(2群または多群の判別)を行うSVC(Support Vector Classification)と、回帰を行うSVR(Support Vector Regression)の2種類の機能がある。ここで用いたPTCの発ガン性データは陽性・陰性の2群データなので、SVCで解析することも可能である。しかし、ここでは以下の3つの理由からSVRを行った。
-
SVCでは発ガン陽性・陰性の2群のどちらに分類されたかという結果しか出力されないのに対し、SVRでは、前報のANNと同じように発ガン性の予測値が連続変数として出力されるので、設定値と予測値との残差RMSE(Root Mean Squared Error)を指標に用いてモデルの最適化を行うことが可能である。
-
SVCでは予測結果について定量的な解析が困難であるが、SVRでは発ガン性予測の出力値を基に各記述子の寄与度や予測誤差の原因などの定量的解析を行うことが可能である。
-
発ガン性予測システムを開発する場合、被検物質の予測結果として、SVCのように発ガン性の有無だけを出力するよりも、発ガン陽性と陰性の中間値を数字で出力する方が、発ガン性の確からしさ(境界値)の判定に有用である。
そこでSVRを行うために前報 [7] と同様、発ガン陽性物質を0.9、陰性を0.1に設定し、記述子も同様に0.9 〜 0.1に規格化した。
SVMの原理については多くの解説 [23, 24] があるのでここでは詳述しないが、SVMはANNと同じく非線形解析手法である。SVMでは、カーネルと呼ぶ非線形写像関数を用いて関数変換した後、線形分離あるいは線形回帰を行う。これによりANNと比較して飛躍的な高速処理が可能になる。ANNに対するSVMの最大の利点は局所解問題がない点である。ANNでは、ネットワークの重みや閾値に初期値を設定し、そこから最急降下法で誤差が低下する方向に重みや閾値を調節する。前報のANNでは、初期値を変えると全て異なる解に収束し、多数の局所解が得られたが、最適解が得られた保証がなかった [7]。一方、SVMでは、分割あるいは回帰すべきデータの丁度中間を通るように分割・回帰線を決めるため、最適解がただ一つだけ得られ、局所解問題は発生しない。
Table 1. Parameters to be adjusted in LIBSVM
| | Meaning | Default |
| d | degree | set degree in kernel function | 3 |
| g | gamma | set gamma in kernel function | 1/k |
| r | coef0 | set coef0 in kernel function | 0 |
| c | cost | set the parameter C of C-SVC, | 1 |
| n | nu | set the parameter nu of nSVC, one-class SVM, and nSVR | 0.5 |
| p | epsilon | set the epsilon in loss function of eSVR | 0.1 |
The k in the g option means the number of attributes in the input data.
このようにSVMではANNと異なり、解は一義的に決まるが、カーネルの選択の余地があり、問題によって最適のカーネルを選択する必要がある。カーネルとは上記のように非線形変換を行う関数であり、ANNにおけるニューロンのシグモイド関数に相当する。LIBSVMではLinear、Polynomial、Radial basis function(RBF)及びSigmoidの4種類のカーネルがあり、SVRのタイプもeSVRとnSVRの2種類が用意されているので、これらの組み合わせの中から最適のカーネルとSVRのタイプを探索する必要がある。
また、ANNと同様、SVMでも過学習の問題があり、幾つかのパラメータの最適設定が必要である。LIBSVMでは、Table 1に示すように、SVRのタイプ及びカーネルの種類によって調節すべきパラメータが異なり、それらパラメータを不適切な数値に設定すると過学習状態に陥る。そこで、SVRのタイプ及びカーネルの種類ごとに、これらのパラメータの数値を変えて予測誤差が最小になる最適条件を探索した。
2. 2 発ガン性データ及び記述子データ
PTC 2000-2001のコンテスト [2] において公開されたデータの内、前報と同一のデータをSVMの学習とテストに用いた。発ガン性データは、モデル学習用はNTP、テスト用はFDAの試験結果のデータであり、前報で解析したmale ratのデータについて検討した。モデル学習用、テスト用の発ガン陽性、陰性の化合物数の内訳をTable 2に示す。記述子についても、前報と全く同一の条件にするために、tReymersとHelmaの記述子群から抽出した37個の記述子を用いた。それらの記述子の内訳をTable 3に示す。
Table 2. Numbers of compounds
| Data Set | Positive | Negative | Total |
| Model construction | 107 | 180 | 287 |
| Model evaluation | 45 | 122 | 167 |
| Total | 152 | 302 | 454 |
Table 3. Descriptors used
| tReymers | SLOGP, LOGD_2, LOGD_7, LOGD_10, SMR, ROTBOND, FLEX, VOLUME, SURF_A, TPSA, HBD, HBA, DIPOLE, LUMO, HOMO |
| Helma | logP, molecular weight, /POLARIZA, largest interatomic distance, total_access, non_polar_access, polar_access, perc_nonpolar, dipole, point-chg. dipole, hybrid dipole, total energy, /DELTAHF, heat of formation, electronic energy, homo, lumo, homo-lumo, electronegativity, ionization potential, /STABIL, /STRAIN |
2. 3 予測結果の評価法
予測モデルの最適条件の探索や予測精度の評価のために、50:50 cross-validation-testを行った。できるだけ均等な2セットに分割するために、モデル学習用の化合物を発ガン陽性と陰性にまず分け、それぞれを分子量順にソートしてセットAとセットBに交互に振り分け、セットAのデータでSVMを学習した後、セットBの記述子データを入力して発ガン性の予測値を求め、次にセットAとセットBを入れ替えて同様の操作を行い、発ガン性の設定値と予測値との平均誤差を求めた。このようにしてモデルを最適化した後、テスト用セットについて発ガン性の予測値を求め、的中率を算出した。なお、今回の発ガン陽性・陰性のような2群の判定には幾つかの方法があるが、ここでは誤判定が最小になる点を境界とした。
3 結果と考察
3. 1 過学習の例
上記のように、SVRでは種々のパラメータを最適化しなければならないが、検証セットを用いないで学習セットのみを用いてパラメータの最適化を行うと過学習に陥る可能性が高い。その一例として、eSVRタイプによるRBFカーネルの場合に、パラメータgとcを変えながらセットAを学習した時の予測誤差(RMSE)をTable 4に示す。セットAのデータを用いて学習した後、セットAについての出力値と設定値との平均誤差RMSE(A) は、パラメータgとcの値が大きくなるほど0に近づいている。これに対し、セットAで学習した後、セットBを検証セットとして入力した場合の出力値と設定値との平均誤差RMSE(B) は、パラメータgとcの値が大きくなりすぎるとRMSE(A) とは逆に増加し、過学習状態を示している。
Table 4. Results showing the overtraining condition
| g | c | RMSE(A)a | RMSE(B)b |
| 0.001 | 1 | 0.5565 | 0.5534 |
| 0.01 | 1 | 0.5555 | 0.5526 |
| 0.1 | 1 | 0.5402 | 0.5425 |
| 1 | 1 | 0.3857 | 0.4797 |
| 10 | 1 | 0.1530 | 0.4684 |
| 100 | 1 | 0.1000 | 0.4732 |
| 1000 | 1 | 0.1000 | 0.4762 |
| 10000 | 1 | 0.1000 | 0.4768 |
| 100000 | 1 | 0.1000 | 0.4768 |
| 0.027 | 0.001 | 0.5568 | 0.5536 |
| 0.027 | 0.01 | 0.5568 | 0.5536 |
| 0.027 | 0.1 | 0.5563 | 0.5533 |
| 0.027 | 1 | 0.5532 | 0.5511 |
| 0.027 | 10 | 0.5225 | 0.5302 |
| 0.027 | 100 | 0.4271 | 0.4926 |
| 0.027 | 1000 | 0.3541 | 0.5931 |
| 0.027 | 10000 | 0.2470 | 0.6362 |
| 0.027 | 100000 | 0.1520 | 1.1863 |
a:RMSE of predicting for dataset A after training for dataset A, b:RMSE of predicting for dataset B after training for dataset A, and bold figures indicate minimum errors.
そこで、モデルの最適化の際には、セットAで学習し、セットBで検証した場合のRMSE(B)と、セットBで学習し、セットAで検証した場合のRMSE(A)との平均値が最小になる条件を探索した。その1例として、eSVR、RBFカーネルの場合にパラメータgとcの最適条件を探索した結果をTable 5に示す。
Table 5. Results of searching the best condition of parameters g and c in case of εSVR and RBF kernel
| g | c | RMSE(A)a | RMSE(B)b | RMSEc |
| 0.1 | 1 | 0.5425 | 0.5164 | 0.5296 |
| 1 | 1 | 0.4797 | 0.4893 | 0.4845 |
| 5 | 1 | 0.4696 | 0.4648 | 0.4672 |
| 8 | 1 | 0.4675 | 0.4627 | 0.4651 |
| 9 | 1 | 0.4679 | 0.4621 | 0.4650 |
| 10 | 1 | 0.4684 | 0.4620 | 0.4652 |
| 15 | 1 | 0.4700 | 0.4650 | 0.4675 |
| 50 | 1 | 0.4743 | 0.4746 | 0.4745 |
| 9 | 0.01 | 0.5502 | 0.5536 | 0.5519 |
| 9 | 0.1 | 0.5221 | 0.5268 | 0.5245 |
| 9 | 0.5 | 0.4640 | 0.4624 | 0.4632 |
| 9 | 0.6 | 0.4645 | 0.4615 | 0.4630 |
| 9 | 0.7 | 0.4655 | 0.4620 | 0.4637 |
| 9 | 1 | 0.4679 | 0.4621 | 0.4650 |
| 9 | 5 | 0.4690 | 0.4655 | 0.4673 |
| 5 | 0.6 | 0.4656 | 0.4642 | 0.4649 |
| 8 | 0.6 | 0.4650 | 0.4617 | 0.4634 |
| 9 | 0.6 | 0.4645 | 0.4615 | 0.4630 |
| 10 | 0.6 | 0.4645 | 0.4618 | 0.4632 |
| 13 | 0.6 | 0.4659 | 0.4635 | 0.4647 |
a:RMSE of predicting for dataset A after training for dataset B, b:RMSE of predicting for dataset B after training for dataset A, c:average of RMSE(A) and RMSE(B), and bold figures indicate minimum errors.
3. 2 モデルの最適化と予測結果
以上の方法でSVRのタイプeSVR、nSVR、及びカーネルの種類Linear、Polynomial、RBF、Sigmoidの組み合わせについて、調整可変のパラメータの最適条件を探索した。その結果をTable 6に示す。それぞれの場合に調節すべきパラメータの数は多いが、SVRではほとんど瞬時に処理できるため、これらのモデルの最適化もきわめて短時間の内に行うことができた。
Table 6. Optimized parameters in each case
| Type | Kernel | d | g | r | c | p |
| eSVR | Linear | | | | 1 | 3 |
| Polynomial | 2 | 0.03 | | 110 | 0.3 |
| RBF | | 9 | | 0.6 | 0.1 |
| Sigmoid | | 0.08 | -0.5 | 10 | 0.3 |
| Type | Kernel | d | g | r | c | n |
| nSVR | Linear | | | | 1 | 0.7 |
| Polynomial | 3 | 0.025 | | 350 | 0.7 |
| RBF | | 4 | | 1 | 0.5 |
| Sigmoid | | 0.2 | -0.3 | 2 | 0.7 |
このようにしてモデルの最適化を行った後、テストセットの記述子データを入力して発ガン性の予測値を求めた。予測値と設定値との平均誤差(RMSE)と的中率(CCR)をTable 7に示す。SVRのタイプとカーネルの組み合わせの中では、eSVRのRBFにおいて的中率が最高になった。LIBSVMのマニュアル [22] ではRBFカーネルを推奨しているが、本研究の場合もRBFカーネルが最善の結果となった。
Table 7. RMSE and correct classification rate (CCR)
| Type | Kernel | RMSE | CCR (%) |
| eSVR | Linear | 0.4666 | 71.3 |
| Polynomial | 0.4928 | 62.9 |
| RBF | 0.4624 | 74.9 |
| Sigmoid | 0.4616 | 72.5 |
| nSVR | Linear | 0.4853 | 64.7 |
| Polynomial | 0.4896 | 63.5 |
| RBF | 0.4837 | 64.7 |
| Sigmoid | 0.4830 | 73.1 |
Bold figures indicate the best conditions.
SVMによるこの74.9 % という的中率は、前報のANNの73.7 %、及びPTC参加者中の最高値であるKWA1の71.1 % [25] より高く、既存の手法の中では最も高い。この比較はROCでも確認できる。ROCはFigure 1に示すように、横軸にFalse Positive、縦軸にTrue Positiveの的中率をとり、各手法をプロットするもので、左上隅(x=0.0, y=1.0)に近い手法ほど高性能であると評価する方法である。前報のANNは、False Positiveがきわめて少なく、発ガン陰性の的中率はきわめて高いが、True Positiveの成績は非常に悪い。本報のSVMでは、陰性の的中率はANNと同程度であるが、陽性の的中率が少し向上している。PTCの諸手法でも陽性と陰性をバランスよく的中できたものは皆無である。SVMとKWA1を比較すると、我々のSVMの方が僅かながら左上隅に近く、高成績であることが確認できる。PTC参加者の中にもSVMを用いた例もあるが、その的中率は60 % 以下であるので、直接、比較できない。ただし、前報に記したように、我々はテスト化合物についての発ガン性の有無のデータを知っている条件下で最善のモデルを探索したので、そのデータを知らないPTCの参加者の結果との比較は公平ではなく、PTC参加者もそのデータを知った上で最善モデルを探索すれば、我々の的中率74.9 % を越える可能性はある。本研究において、male rat以外をSVMで解析しPTC参加者の成績と比較しなかった理由はここにある。

Figure 1. ROC of the three models for male rat (SVM: this study, ANN: our previous study, KWA1: the best model in the PTC)
3. 3 SVMとANNの性能比較
予測結果の内で的中率最高を示したeSVR-RBFカーネルの場合のクロス集計表をANNの結果と比較してTable 8に示す。ANNでは発ガン陰性化合物を陽性と誤判定するFalse Positiveが1件であったのに対して、今回のSVRでは5件に増えている。一方、陽性化合物を陰性と誤判定するFalse NegativeがANNで43件もあったのに対して、今回のSVRでは37件と大幅に減少した。しかし、このFalse Negativeは化学物質の動物実験のスクリーニングという観点からは重大な誤判定であり、SVMの予測結果も満足できるものではない。
Table 8. Cross tabulation for SVR (εSVR-RBF kernel) and ANN (in parentheses)
| | Predicted |
| | Positive | Negative |
| Experiment | Positive | 8 (2) | 37 ( 43) |
| Negative | 5 (1) | 117 (121) |
ANNもSVMも非線形解析手法であるが、ANNの方が中間層のユニット数などの調節可能パラメータの数が多いので、一般に複雑な分類・回帰問題ではANNの方が高い予測精度を示す。本研究の非同族体の発ガン性予測もきわめて複雑な分類問題であるため、ANNの方が高い予測精度を示すと予想された。
しかし、本研究の結果ではSVMの方がわずかながら予測精度が高くなり、非線形性の関係とは逆転している。この原因は現時点では未解明であるが、前報のANNでは局所解問題のために、73.7 % という的中率が最適解でない可能性が考えられる。ANNによる解析では、局所解問題の解決のために、ネットワークの重みやニューロンの閾値の初期値を3万回変えて学習を行い、最適解を探索したので、7台のPCを用いて6ヶ月以上の計算時間が必要であった。しかし、それでも初期値によってすべて異なる解が得られたので、最適解が得られていなかった可能性がある。
これに対して、SVMは非線形性の点ではANNに劣るものの、局所解問題がなく、処理がきわめて迅速であり、ANNで数ヶ月かかった学習が瞬時に処理できるのはSVMの大きな利点である。この迅速処理により、ANNでは実行不可能と思われる100万レコードを超える大規模データの解析も行われている [22]。
SVMやANNだけでなく、各種の予測手法の性能比較については様々な分野の様々な問題で行われているが [13 - 15, 24, 26 - 41]、SVMの優位性を示した報告もあり、最適の解析手法は問題によって異なると考えられる。発ガン性予測についてはこれまで多彩な手法による予測結果が報告されているが、その中では最大規模であるPTCデータについて、今回我々が用いたSVMはきわめて迅速な処理が可能でありながら、最高の予測性能を示したことから、少なくとも大規模の非同族化合物の発ガン性予測には現状ではSVMが最も適していると結論できる。
3. 4 今後の課題
上記のように、今回検討したSVMを用いてもPTCデータの発ガン性については74.9 %の的中率しか得られず、化学物質の動物実験のスクリーニングという観点からはSVMの予測性能も満足できるものではない。その原因を探るために、SVMの予測値を集計すると、そのヒストグラムはFigure 2のようになる。太い縦線は陽性・陰性の境界線であり、このeSVR-RBF カーネルの場合は境界値は0.516であったが、境界値を0.5にすると誤判定が1件増え、的中率は74.9 % から74.3 %に低下した。発ガン陽性と陰性の物質群の分布がほとんど重なり合っており、特に陽性群の予測値が低い方まで伸びていることが上記のFalse Negativeの原因になっていることが分かる。しかし、この状況は前報で解析したANNの予測結果(論文 [7] のFigure 4)でも同様であり、低い的中率の原因が解析手法以外のところにあることは明白である。

Figure 2. Histogram of output values of in case of eSVR-RBF kernel (the bold bar denotes the boundary line between positive and negative groups)
このような的中率が低い原因としては、PTCの発ガン性データに問題があることが考えられる。第1は、Table 2に示す陽性と陰性化合物のアンバランスであり、圧倒的に多い陰性化合物に偏って学習が行われた可能性がある。第2は、学習用化合物(NTPによる試験結果)と、テスト用化合物(FDAの試験結果)との化学構造特性の違いであり、前者は構造の簡単な低分子化合物が多いのに対し、後者は薬物等の複雑な構造の化合物が多いと指摘されている [25]。化学物質の発ガンには生体内での代謝も重要であり、それには化学物質の構造の複雑度も関係する点を考えると、PTCの学習用とテスト用化合物の構造特性の違いが的中率低下の原因になっている可能性は十分考えられる。したがって、PTCのデータよりもっと信頼性の高い発ガン性のデータを用いてSVMによる解析を行う必要がある。
前記のように、発ガン性未知の化学物質の構造は多種多様であり、このような非同族体の発ガン性を構造から統一的に予測することはきわめて困難な問題である。しかし、不特定の化学物質の発ガン性予測手法の開発は喫緊の課題であり、そのためには信頼性の高い発ガン性データベースの開発が不可欠である。上記のようにPTCの発ガン性データには幾つかの問題があり、また既存の発ガン性データベースにも様々な問題点がある [3]。
そこで、我々のグループでは、これまでにIARCやNTP等、幾つかの試験機関で行われた発ガン性データの信頼性を総合的に評価し、独自に格付けした発ガン性データベースの開発を進めている。今後、本研究で発ガン性予測への有効性が実証されたSVMを用いて、この大規模な発ガン性データを解析することにより、化学物質の構造から発ガン性を高精度で予測するシステムを開発し公開したいと考えている。
4 結 論
サポートベクターマシン(SVM)を用いて多種類の化学物質の構造から発ガン性を予測する手法を検討した。ニューラルネットワーク(ANN)と比較するために、Predictive Toxicology Challenge 2000-2001の454種の化学物質の発ガン性データと37種の記述子との相関をSVMで解析した。モデルを最適化した後、Cross-validation-testを行い、発ガン性の的中率を求めた。ANNでは過学習、Over-fitting、局所解などの問題のために、学習回数や中間層ユニット数などの最適化にきわめて長い処理時間を要したが、今回のSVMでは、ANNとほぼ同程度の予測精度がきわめて短時間で得られ、現状では非同族体の発ガン性予測手法として最も適していることがわかった。
参考文献
[ 1] L. Passerini, Quantitative Structure-Activity Relationship (QSAR) Models of Mutagens and Carcinogens, edited by R. Benigni, CRC Press, Boca Raton (2003), pp. 81-123.
[ 2] C. Helma, R. D. King, S. Kramer, A. Srinivasan,
http://www.informatik.uni-freiburg.de/~ml/ptc/
[ 3] 田辺和俊, 大森紀人, 小野修一郎, 松本高利, 長嶋雲兵, 上坂博亨, 鈴木孝弘, 情報知識学会誌, 16, 63-84 (2006).
[ 4] C. Hansch, T. Fujita, J. Am. Chem. Soc., 86, 1616-1626 (1964).
[ 5] C. O. Nordling, Brit. J. Cancer, 7, 68-72 (1953).
[ 6] Y.-T. Woo, D. Y. Lai, Quantitative Structure-Activity Relationship (QSAR) Models of Mutagens and Carcinogens, edited by R. Benigni, CRC Press, Boca Raton (2003), pp. 41-80.
[ 7] 田辺和俊, 大森紀人, 小野修一郎, 鈴木孝弘, 松本高利, 長嶋雲兵, 上坂博亨, J. Comput. Chem. Jpn., 4, 89-100 (2005).
[ 8] V. N. Vapnik, The Nature of Statistical Learning Theory, Springer, Berlin (1995).
[ 9] N. Chen, W. Lu, J. Yang, G. Li, Support Vector Machine in Chemistry, World Scientific, Singapore (2004).
[10] O. Ivanciuc, Internet Electronic J. Mol. Design, 1, 151-172 (2002).
[11] O. Ivanciuc, Internet Electronic J. Mol. Design, 1, 203-218 (2002).
[12] O. Ivanciuc, Internet Electronic J. Mol. Design, 2, 195-208 (2003).
[13] X. J. Yao, A. Panaye, J. P. Doucet, R. S. Zhang, H. F. Chen, M. C. Liu, Z. D. Hu, B. T. Fan, J. Chem. Inf. Comput. Sci., 44, 1257-1266 (2004).
[14] C. Helma, T. Cramer, S. Kramer, L. De Raedt, J. Chem. Inf. Comput. Sci., 44, 1402-1411 (2004).
[15] Y. Xue, Z. R. Li, C. W. Yap, L. Z. Sun, X. Chen, Y. Z. Chen, J. Chem. Inf. Comput. Sci., 44, 1630-1638 (2004).
[16] C. W. Yap, C. Z. Cai, Y. Xue, Y. Z. Chen, Toxicol. Sci., 79, 170-177 (2004).
[17] F. Luan, R. Zhang, C. Zhao, X. Yao, M. Liu, Z. Hu, B. Fan, Chem. Res. Toxicol., 18, 198-203 (2005).
[18] X. J. Yao, A. Panaye, J. P. Doucet, H. F. Chen, R. S. Zhang, B. T. Fan, M. C. Liu, Z. D. Hu, Anal. Chim. Acta, 535, 259-273 (2005).
[19] S. Bhavani, A. Ngargadde, A. Thawani, V. Sridhar, N. Chandra, J. Chem. Inf. Model., 46, 2478-2486 (2006).
[20] K. Tsujimura, M. Asamoto, S. Suzuki, N. Hokaiwado, K. Ogawa, T. Shirai, Cancer Sci., 97, 1002-1010 (2006).
[21] A. Amini, S. H. Muggleton, H. Lodhi, M. J. E. Sternberg, J. Chem. Inf. Model., 47, 998-1006 (2007).
[22] C. C. Chang, C. J. Lin,
http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[23] N. Cristianini, J. Shawe-Taylor, 大北剛 (訳), サポートベクターマシン入門, 東京, 共立出版 (2005).
[24] 小野田崇, 知の科学-サポートベクターマシン, オーム社, 東京 (2007).
[25] H. Toivonen, A. Srinivasan, R. D. King, S. Kramer, C. Helma, Bioinformatics, 19, 1183-1193 (2003).
[26] S. Doniger, T. Hofmann, J. Yeh, J. Comput. Biol., 9, 849-864 (2002).
[27] E. Byvatov, U. Fechner, J. Sadowski, G. Schneider, J. Chem. Inf. Comput. Sci., 43, 1882-1889 (2003).
[28] M. J. Sorich, J. O. Miners, R. A. McKinnon, D. A. Winkler, F. R. Burden, P. A. Smith, J. Chem. Inf. Comput. Sci., 43, 2019-2024 (2003).
[29] V. V. Zernov, K. V. Balakin, A. A. Ivaschenko, N. P. Savchuk, I. V. Pletnev, J. Chem. Inf. Comput. Sci., 43, 2048-2056 (2003).
[30] Y. Xue, C. W. Yap, L. Z. Sun, Z. W. Cao, J. F. Wang, Y. Z. Chen, J. Chem. Inf. Comput. Sci., 44, 499-507 (2004).
[31] O. Sadik, W. H. Land, Jr., A. K. Wanekaya, M. Uematsu, M. J. Embrechts, L. Wong, D. Leibensperger, A. Volykin, J. Chem. Inf. Comput. Sci., 44, 1497-1505 (2004).
[32] C. X. Xue, R. S. Zhang, H. X. Liu, X. J. Yao, M. C. Liu, Z. D. Hu, B. T. Fan, Y. Xue, C. W. Yap, L. Z. Sun, Z. W. Cao, J. F. Wang, Y. Z. Chen, J. Chem. Inf. Comput. Sci., 44, 1693-1700 (2004).
[33] C. Y. Zhao, R. S. Zhang, H. X. Liu, C. X. Xue, S. G. Zhao, X. F. Zhou, M. C. Liu, B. T. Fan, J. Chem. Inf. Comput. Sci., 44, 2040-2046 (2004).
[34] R. N. Jorissen, M. K. Gilson, Y. Xue, C. W. Yap, L. Z. Sun, Z. W. Cao, J. F. Wang, Y. Z. Chen, J. Chem. Inf. Comput. Sci., 45, 549-561 (2005).
[35] Y. Takahashi, S. Fujishima, K. Nishikoori, H. Kato, T. Okada, J. Comput. Chem. Jpn., 4, 43-48 (2005).
[36] M. Glick, J. L. Jenkins, J. H. Nettles, H. Hitchings, J. W. Davies, J. Chem. Inf. Model., 46, 193-200 (2006).
[37] D. J. Wilton, R. F. Harrison, P. Willett, J. Chem. Inf. Model., 46, 471-477 (2006).
[38] C. L. Bruce, J. L. Melville, S. D. Pickett, J. D. Hirst, J. Chem. Inf. Model., 47, 219-227 (2007).
[39] L.-J. Tang, Y.-P. Zhou, J.-H. Jiang, H.-Y. Zou, H.-L. Wu, G.-L. Shen, R.-Q. Yu, J. Chem. Inf. Model., 47, 1438-1445 (2007).
[40] B. Niu, W. Lu, S. Yang, Y. Cai, G. Li, Acta Pharmacol. Sinica, 28, 1075-1086 (2007).
[41] L. D. Hughes, D. S. Palmer, F. Nigsch, J. B. O. Mitchell, J. Chem. Inf. Model., 48, 220-232 (2008).
Return