欠測データ集合を扱う神経回路網法CQSAR:
Compensation Quantitative Structure-Activity Relationshipsの開発

青山 智夫, 神部 順子, 長嶋 雲兵, 梅野 英典


Return

1 はじめに

階層型神経回路網(以下神経回路網という)は現象の支配方程式が不明の多変量解析に用いられ,薬理活性解析,環境問題解析の分野に用いられる[1].神経回路網は現象のシミュレーション関数を提示データから回路網内部にニューロン間の結合強度の形で自動生成する(学習).代表的な学習法はBack Propagation (BP)法[2]である.神経回路網の出力値は連続,微分可能である.神経回路網は離散的な観測値から現象の連続かつ微分可能な関数を再構成するので,それらからさまざまな解析を行ことができる.神経回路網の入力データ,教師データは完全でなければならない.ここで完全とは両者をベクトルで表現した場合,両ベクトル要素数が同じであり,かつ対応していることである.完全でない場合を欠測という.多変量解析を行う場合、データの欠測は単に欠測を含む説明変数の削除による説明変数の減少に止まらず,複数の説明変数の中の一変数の部分的欠測がそのデータの組を棄却することで、値が存在する他の説明変数の該当部分を使用不可にし、情報の減少を引き起こす.
欠測は様々な要因で生じる.現象を再測定できる場合は良いが,様々な要因で再測定が不可能の場合もある.例えば生物が関係する実験では遺伝情報のそろった動物がもうない場合とか,測定コストの問題がある.また現象そのものが稀有で容易に同じ状況にならない場合,例えば発生頻度が少ない新星爆発などの測定は再測定がきわめて難しい現象である.特に環境測定では測定機関が行政府に属し,測定が解析側の意図と合わず,なかなか神経回路網の学習に必要なデータが揃わない.そのような場合,再測定をすることなく,入手できたデータを「欠測を含むもの」として多変量解析する方法があると,応用範囲は大きい.本論文では欠測の悪影響を取り除き,多変量解析を可能にする神経回路網を用いた方法を議論する.

2 記号使用法

我々は以下の記号を使う.神経回路網の入力ベクトルをx,出力ベクトルをy,神経回路網の変換機能をQと書く.

階層数が3の場合,

である.ここでq, hは閾値,区間は[-¥, ¥],行列Wx, Wyは各層間のニューロン間結合の強さである.行列要素の区間は[-¥, ¥]である.q, hは関数f, gのパラメータである.qは第2層のニューロンからの出力値のベクトルである.神経回路網はx®q®yと次元の異なるベクトル間の変換素子である.f, gは各層上のニューロンの動作をエミュレートする関数で特に断らなければsigmoid function,

である.-¥< x <+¥, 0<=f(x)<=1である.この関数を使う際,ベクトルx各要素を区間[0, 1]にスケーリング(付録1)する.
化学,薬学現象解析の場合,全ニューロンのエミュレート関数をsigmoid functionとするより,層数を3に止め,第2層の関数をsigmoid function,第3層の関数を線形関数,

とする変形神経回路網[3]が有効である.そのときQは,

という関数展開を行っていることになる.Gは係数,iは添字である.Si(x)はsigmoid関数(式(3)である.この有限関数展開法はTを期待値(教師データ)とし学習誤差,

で計算するとE®0ではなくE®停留値(>0)となる.

3 欠測を含む観測データの情報処理

3. 1 EM法

統計学の立場から欠測を取り扱う方法はいくつか知られている.Expectation Maximizationアルゴリズム(以下EM法) [4]は有力な方法である.EM法の概要は渡辺[5]によれば以下である.
  1. 手元にあるデータYobsだけでは解を導くことが困難な問題に対して,解決が容易なレベルまでデータを完全化し(欠けているデータ部分Ymisが存在するとして)問題を定式化する.
  2. パラメータの推定値iを導くことが目的であればYmisに暫定的な値を埋め込みi0を求める.
  3. i0を用いてYmis を改良する.
  4. inの値が収束するまで前の2つのステップを繰り返す.
化学,薬理学,環境科学についてこれらのステップが可能か否かを議論する.Ymisの存在は確かである.操作(1), (2)は可能である.操作(3), (4)は問題がある.そのような結果を繰り込んで観測側を補正することは物理,化学の分野では禁止されている.この禁制は薬理活性問題で化合物の置換基物性値と生理学的活性の測定の関連を考えれば理解できる.統計学では「確率論的モデルを仮定し,その現れた現象を観測データ」と考えている.それならば操作(3), (4)は適用可能である.
構造活性相関問題では「現象に関係がある」と思われる複数種類の測定値を説明変数として現象値の再現を試みる.これは仮説である.関係の無い説明変数,過剰パラメータの採用など,手段が適切でないならば測定値は再現されても単なるcurve fittingであり,現象について得られる情報は少ない.仮説に対して操作(3)は適用困難である.
以上の理由から,我々はEM法の趣旨は尊重するが,それをそのまま受け入れ,薬理活性問題,環境問題に適用しない.以下に欠測のある観測データは神経回路網でどう取り扱われてきたかを示す.

3. 2 全棄却法

欠測部分を除外したサブセットで神経回路網を学習する方法である.簡便な方法で副作用が少ない.期待値 Tが完全ならば説明変数 xの欠測部xkを次のように推測可能である.
xkとその対応する期待値Tkを除外したデータで神経回路網をBP学習を行う.学習が完了した神経回路網に以下の操作をする.
  1. xkの可能な範囲[a, b]区間の等差数列a<=x0, x1,..., xN<=bを学習の完了した神経回路網に入力する.可能な範囲が不明の場合はニューロンのとりうる値[a, b]=[0, 1]とする.
  2. 神経回路網の出力y0, y1,..., yNと欠測xkに対応する期待値Tkとその出力との差を計算し最小値を与えるxiを推測値とする.
この方法の欠測値推定能力は[0, 1]区間の初等関数のサンプルから得たモデル計算では誤差は約±0.05以下であった.構造活性相関の用途に充分使用できる.複数の欠測にも有効である.しかし本法は期待値 Tに欠測がある場合は使用できない.逆方向 T®xの神経回路網を定義すれば形式的には補完可能である.しかし多変量解析の場合,普通 Tは一次元,xは多次元である.従って T®xに拘束条件を付加しなければ補完は無意味である.本推測方法は命名されていない.
全棄却法は有効であるが,説明変数が複数種類ある場合,一種類の説明変数の欠測が他の説明変数の対応部分の使用を妨げる.そのとき本来欠測でない観測データまでも学習から除外され,学習に用いられるデータのさらなる減少を引き起こす.説明変数とTの中の一種類に欠測の確率がp1(0<=p1<=1)存在すると,欠測が二種類のときP=p1+p2-p1p2の欠測の確率となる.ゆえに1<Pとなることがある.これを欠測の悪影響と呼ぶ.そのために全棄却法が適用できないことがある.
以下の議論では全棄却法が適用できない非線形現象の欠測率の大きい(約50%にも達する)多変量解析を対象にする.

3. 3 Compensation of Quantitative Structure-Activity Relationships (CQSAR)

入力データxが複数種類の場合{xi}と書く.添字iは個々の説明変数を示すindexである.{xi}をdescriptorと呼ぶ.欠測データは観測{xi},Tの任意の要素に見出されるとする.Tを{Ti}と表記し教師データと呼ぶ.一般的に{xi},Tの統計的性質は不明で,その関連性は最初の段階では仮定である.Descriptors, xi, xj(i<>j)間の独立性は保証されない.この仮定の上に量 H(x0, x1,..., xi, T)を定義し,それから欠測に関する指標を導くのは適当でない.
我々は{xi},Tを各々独立に補間補外(以下補完と総称する)してその欠測部を補い,欠測データを完全化して神経回路網の構造活性相関(Quantitative Structure-Activity Relationships; QSAR)計算を行う.この計算法をCompensation of QSAR (CQSAR)[6]と呼ぶ.
CQSARの一実用プログラムの構成要素を以下に示す.
  1. 有効測定(測定の欠測でない部分)数が数個(〜5以下),支配方程式の代わりに過去の測定が利用できる場合の補完法(以下,観測ベクトル補完法という).
  2. 有効測定数が数個以上で,支配方程式不明は不明であるが,ある程度の情報(たとえば尖塔値がある,直線増加範囲)が分かっている場合の補完法(以下,可変絶対値関数補完法という).ここで尖塔値とは,観測数が少ないために近傍値から突出している観測値で「外れ値」として除外できない観測値をいう.
  3. 有効測定数が数個以上,非線形現象で極端な尖塔値が無く支配方程式が不明な場合の補完法(以下,神経回路網補完法という).

4 CQSARアルゴリズム

4. 1 観測ベクトル補完法

環境科学指標測定の中には測定数が5以下で支配方程式が不明の場合がある.このとき関連の測定がある場合がある.一例を示す.河川水質指標のchloride ion [Cl-]濃度は降雨量に影響され年周期で変動している.ある年度の観測値に欠測がある場合,過去の観測値のベクトル{yi}に乗数aとバイアスBを使い{ayi+B}をその年度の観測とみなして2パラメータa, Bを,

から計算する.ここでYobsはその年度の観測値,添字obsは有効な観測を示すindexである.完全化したベクトルを{{Yobs}, {ayi+B; i<>obs}}とする.

4. 2 可変絶対値関数補完法

可変絶対値関数を次のように定義する.

本関数は点(m, B)を頂点に持つ傾きが可変の絶対値関数でパラメータ数は4である.本関数は尖塔値を持ち,薬理活性などのシミュレーションに適す.補外に使用しても2次以上の高次項を持たないため極端に値が増大(減少)しない.絶対値関数は微分できないのでパラメータの決定は次のアルゴリズム[7]を使う.
  1. パラメータa1の取り得る区間を決定する.これは初期値である.
  2. 区間をN等分した各点で関数値f(x, a1, a2, m, B)を計算する.他のパラメータには適当な値を設定しておく.
  3. f(x, a1, a2, m, B)minを与えるa1minを決定する.
  4. 次のパラメータa2で同様の処理をする.そのときa1minを用いる.
  5. 以下,同様にしてa1min, a2min, mmin, Bmin を決定する.
  6. a1minを中心にしてa1の取り得る区間を決定する.区間は上記の(1)より小さくする.以下,同様にa2min, mmin, Bmin について処理する.
  7. 各パラメータの値の変化が十分小さくなったとき計算を終了する.
このアルゴリズムは関数の微分形を要求しない.収束は遅いが発散しない.完全化したベクトルは,{{Yobs}, { f(xi, a1min, a2min, mmin, Bmin) ; i<>obs}}である.

4. 3 神経回路網補完法

有効観測数が10以上ならば非線形現象であっても神経回路網により支配方程式を近似できる可能性がある.ただし観測値に尖塔値がないことが望ましい.観測値も直線で近似した場合R2(決定係数)値が1に近いほど精度が高い.
Descriptorsの欠測ベクトルをxi,その欠測要素をxikとする.本補完法ではxiを教師データとする.次に[0,1]区間の等差数列 z={z0, z1,..., zk,..., zN}を定義する.zが補完のための新しいdescriptorに相当するベクトルである.zkxikに対応する要素である.この2ベクトル間の関係 z®xiを神経回路網により学習する.補完は学習が完了した神経回路網を用いて,

とする.Qは式(1)に同じである.完全化したベクトルは{{Yobs}, { Q(zk) ; k<>obs}}である.
等差数列をdescriptorに採用した理由は以下である.
(1) 教師データT={Ti}の要素に順序性(環境科学指標ならば観測点の位置,化合物の活性順序など)が存在しTi<Ti+1<Ti+2,...のように並べ替えることができる.Txiの各要素は対応している.xiの各要素は順序性のある数列要素に対応している.すなわちxiの値は一見順序性が無いように見えるが適当なベクトルz'によりxi=function(z')となる.神経回路網は式(1)から任意ベクトル変換関数である.要素の対応関係があればxi=Q(z)である.等差数列は順序性という点に関しては全要素について等価で適切な数列である.
(2) 等差数列の各要素の順序性は神経回路網(関数機能をfと書く)において,

である.xi, xi+2が観測,xi+1が欠測とする.偏微分係数は構造活性相関等の問題では,

あるいは,

なる関係を満足することが望ましい(欠測値を補間で求める場合,値が近傍前後値の間にあるべきである).
以下,片方の式(12)だけで考察すると,

このとき zが等差数列なので,

である.式(15)は関数値凹になっていれば成立する.
これは式(12)の凹の関係をそのまま反映している.従って等差数列は元関数の微分値間の関係を変えない.
EM法の趣旨を生かし,等差数列zで目的のxiにより近いz'を求め,それを使い同様の操作を繰り返しxikを求める方法も考えられる.しかし神経回路網は任意ベクトル変換器であるからz®z'®z"®...の繰り返し効果は少ない.

4. 4 CQSARのQSAR計算

欠測データが補完された後のQSAR計算について議論する.補完値は測定値よりも「不確か」である.その影響を議論する.第1層入力値の微分変化の出力値に対する影響は以下である.
Wxij, Wyjkを第1, 2層間のニューロン間の結合荷重,第2, 3層間の結合荷重とする.添字i, j, kは第1, 2, 3層のニューロンを示す.第1, 2層の最後のニューロンそれぞれ1個をbias neuronとする.bias neuron値は1とする.第2層のニューロンに入力する値をhjとすると,

第2層の出力qjは,第2層のニューロン・エミュレーション関数をfとして,

第3層からの出力ykは,

である.式(16-18)から入力値xiD変化したときの神経回路網の性質は,

である.式(21)にはsigmoid関数の性質が含まれている(係数1/4の部分).BP学習では式(21)のWxij, Wyjkについて何の制約も課さないので,DxiDykの間に知見は得られない.ここでBP学習の中に

なる操作を混ぜ,の大きさを

の範囲内でBP学習を完了出来たとすると,

となる.式(24)は欠測値の補完誤差が次段のQSAR計算部で拡大しないことを保証する.式(22)はreconstruction learning [8]では考慮されるが,BP誤差0への漸近法が式(23)形式ではない.新しいreconstruction learning法を付録2に示した.
この議論は神経回路網の一つの解について成立する.複数解(局所解の集合)についての議論が必要である.

4. 5 局所解の影響

BP方程式は提示データに対する式(1)を保証するが,未学習データについては何も保証しない.一般的に用いられる3層神経回路網において,中間層ニューロン数が多い場合,式(1)の変換関数 Qは複数存在する.それを{Q0, Q1, Q2,....}とする. BP方程式を単純に解けばその一つが解となっている.これを Q0と書く.
{Q0, Q1, Q2,....}において,

である.ゆえに変換関数{Qi}のBP誤差がほとんど同じとき補完入力ベクトル{x}の誤差が変換関数の式(6)のEに影響する可能性がある.補完率を変化させたとき補完率c0, c1で変換関数がQ0®Qiと変化することがあり得る.すなわち式(25)から,そこで急にCQSAR法の結果が悪くなることが起こりうる.その可能性を数値計算で調べた.

4. 6 排他的論理和問題

BP方程式を使用して局所解集合{Q0, Q1, Q2,....}を求める手順は以下である.
(1) BP方程式を解く.この解をQ0そのときのニューロン間結合をWx0, Wy0とする(式(2)参照).
(2) 次の解を求める際N回BP学習を行う毎に,

ならば,

とする.式(26-28)の操作は行列の各要素について行う.ただし,式(26, 27)はBP計算の中でN回毎に成立するとは限らない.Nqは経験的なパラメータである.
以下操作(2)をすでに求まっている全Wx, Wyについて繰り返す.この学習から得られる局所解の集合は各解の対(K, L)においてWxK <>WxLかつWxの各要素についてもq以上相違する.Wyについても同様である.従って各局所解の性質は異なる.
排他的論理和学習で中間層のニューロン数を7としたときNを4〜16, qを0.0625〜0.125まで変化させて幾つの局所解が得られるかを調べた.N=16, q=0.0625, 学習回数40k回のとき7局所解が得られた.そのときの学習回数によるBP誤差の変化をFigure 1に,解の性質をTable 1に示す.


Figure 1. Average BP learning error of 7 local minima of exclusive OR data set

Table 1. Characters of 7 local minima of exclusive OR data set.
av.errorSDx1*x2B
1st0.0020.0030.440.55-1.06
2nd0.0040.0030.004-0.14-0.92
3rd0.0040.004-0.250.19-0.98
4th0.0040.0030.38-0.71-0.88
5th0.0040.0031.600.66-0.45
6th0.0040.0030.260.22-0.25
7th0.0050.0030.45-0.31-0.60
*x1=(Output/x1) at EOR(0,0)

Table 1の1stは式(26-28)の制約のないBP方程式から得られた解である(通常この解のみを求めている).2ndは式(26-28)の制約を1st解について適用して得られた解である.3rdは式(26-28)の制約を1stと2nd解について適用して得られた解である.以下7thまで同様である.
Table 1の平均BP誤差(av.error)は7局所解の式(6)の値である.それから判断すると誤差はほぼ同じで,最初の解のすぐ上に5つの解がほぼ縮退している.学習データを入力したときの誤差(SD)も平均BP誤差に同様である.しかしEOR(0, 0)点の2つのdescriptorとBiasの偏微分係数{x1, x2, Bの列}は符号と値が顕著に変化している.ゆえに補完時のわずかのdescriptorの変化により容易に変換関数 Q0, Qiが変化する可能性がある.すなわちCQSARの現象の原因を示す値が補完の度合いにより急激に変化する可能性がある.この結果は神経回路網の第3層のニューロン動作関数を式(4)とした場合であるが,その関数をsigmoid functionとしても同様の結果となった.

5 CQSAR計算例

5. 1 数値計算データの作成

CQSARの適用限界を数値的に調査する.その際,誤差を含まない観測値に類似したデータが必要である.我々は構造活性相関データ[9]を参考にしてそのモデルを決定した.モデル・データは関数の等間隔サンプリングにより得たベクトルとし,関数を非線形単調増加関数,微分可能な極大値のある関数,微分不可能な尖塔値のある関数とした.選定関数をTable 2に示した.サンプリング数は環境科学分野で頻繁に見出される測定値数{11, 13, 15, 21, 27}とした.

Table 2. Functions for simulations*.
#functionTermSamplingobject
1y=√xdescriptor
2y=x2
3y=-(x-0.25)20<=x<=1
4y=-(x-0.75)211, 13, 15, 21, 27
5y=1-|x-0.7|teaching
6y=1-|x-0.6|3/4boundary
*) The simulations are to estimate limitations of neural networks' ability to emulate non-linear phenomena. Where, there is no observation error, which is necessary to calculate the ability.

5. 2 欠測部指定データの生成

欠測部は,全棄却法が不可能になるように,かつ全被検査ベクトルに均一に位置するようにした.等差数列K={0, 1, 2,......N}={Ki}においてJi=mod(Ki, M)とする.M=2のとき{Ji}=Jとする.Jベクトルは0/1値が交互並ぶベクトルである.全説明変数dj,教師データ Tの各ベクトルを連結する.連結は{...djk, dj+1,k, dj+2,k,..., Tk, ......dj,k+1, dj+1,k+1,...Tk+1,...}とする.これを{Di}と書く.DJの各要素を対応させる.Jiが0のときDiを欠測とする.このように欠測部を作ると,全データの約50%が欠測となる.この欠測データをパターンAとする.
次にM=4としJi=0, 1, 2を欠測とした.この場合の欠測率は約75%である.この欠測パターンをBとする.パターンA, Bでは必ず説明変数か教師データのどこかが欠測となる.全棄却法では全変数が削除されて計算できない.

5. 3 神経回路網法の補完能力

第4.3節の神経回路網補完法の機能を調べる.神経回路網の構造パラメータをTable 3に示す.

Table 3. Parameters to learn a neural network.
Parameterthe valuesremarks
# of neurons2, 4, 12 bias neurons on 1,2 layers
Iterations5K, 20Kfor defect ratio 50/75%
coefficients0.25Common for 2,3-layers
Scaling[0.05, 0.95]for descriptor/teaching data

Table 3の第2層のニューロン数は,説明変数を最大2個の極値を持つ関数で補完するために3,biasを加えて4とした.学習を高速に行うためスケーリング区間を[0.05, 0.95]とした.欠測パターンAのときの全説明変数と教師データの補完値精度をFigure 2に示す.


Figure 2. Precision of interpolation in defect ratio 50% (pattern A). Numbers of curves correspond to the functions in Table 2.

Figure 2において,サンプリング数は11〜27である.その50%は欠測として神経回路網には入力されていない.折線上の数字はTable 2の#欄の番号に相当し,関数形を示す.尖塔値のある最も神経回路網でfitting困難な関数6がCQSARの限界を示すと考えられる.環境科学,化学の測定誤差は普通10〜20%程度であるので,標準偏差(SD) = 0.1以下を可と考えた.その観点では神経回路網の補完は測定数が13 (欠測を除いた有効数は[13/2]+1=7)以上あれば適用可能と判断する.
欠測パターンBのときの補完値の精度をFigure 3に示す.


Figure 3. Interpolation precision in defect ratio of 75% (pattern B).

Figure 3の折線上の数字はTable 2の#欄の関数形を示す.Figure 2と同じく関数6が補完の限界指標である.標準偏差0.1以下を満足できる範囲と考えると,本法は有効測定数が[21/4]+1=6以上あれば適用可能である.これらはdescriptorの欠測部補完に関する適用限界である.

5. 4 欠測率50%のときの構造活性相関を想定したCQSAR法の現象シミュレーション能力

CQSARの補完部とQSAR計算部全体の総合的な現象シミュレーション能力について調べた.想定した現象は薬理活性に関する構造活性解析である.欠測データをパターンAとした.説明変数にはTable 2の#1〜4のサンプリング・データを用い,教師データにはTable 2の#5のサンプリング・データを用いた.その際,文献[9]のデータを参考にした.関数#5は絶対値関数であり,sigmoid functionでfittingするのは困難な関数である.サンプリング数(N)はFigure 2の結果から13 (CQSAR第1段階の神経回路網法補完が満足できる最小データ数,有効データ数7), 21 (第1段階の補完でデータ数が十分満足できる数,有効データ数11)とした.Table 4に第1と第2ステップの神経回路網の学習パラメータを示した.

Table 4. Learning parameters for the first step in CQSAR.
# of neurons on 1-3 layers2, 4, 1
iterations of #1-#5 descrip.20, 10, 6, 7.2, 6K
learning coefficient0.25, 0.25

Learning parameters for the second step.
# of neurons on 1-3 layers5, 3, 1
reconstruction learning iter.10K
learning coefficient0.2, 0.2
erasing coefficient0.04 every 50 iteration

第2の神経回路網の学習には第4.4節の議論からreconstruction learningを用いた.Figure 4N=13のときのCQSARの出力と真値との差を示す.


Figure 4. CQSAR outputs, the expectations and the differences in case of pattern A. The descriptors are calculated by sampling of functions (#1-#4) in Table 2, and the teaching data are got from the function #5. The number of each sampling is 13, and the defect ratio is 50% (the effective data are 7). The defect parts are ordered alternatively. They are common on the scaled descriptors' values. The "neural network" index shows the outputs of the second neural network of CQSAR. The black points are the learning data, and the white points are defects. The D line is the difference, SD=0.012 with the defects.

Figure 4において折線neural networkはCQSARの出力値,黒白点は期待値で,黒点が教師データ,白点が欠測値である.欠測値はプログラムには入力されていない.折線Dは期待値とCQSARの出力値との差である.絶対値関数の尖塔値部分を除きfitting精度は高い.尖塔値部と欠測部を含めた標準偏差は0.012である.D線はCQSARが50%の欠測率でも高精度で現象を再現する可能性を示す.現象値そのものを再現するのならN >= 13でもCQSARは有効である.
さらに高精度を要求する場合は説明変数の結果に対する寄与も必要になる.その寄与は神経回路網の偏微分係数値で表せる[10].説明変数#3-4の係数をFigure 5に示す(#1-2についても計算したがこれらの変数は50%欠測と欠測なしの曲線が一致し問題がなかったので省略した).


Figure 5. Partial derivative coefficients for the functions #3 and #4 in Table 2. The "100%" shows derivatives in case of no-defect, which are expectations.

Figure 5において50%と記されている曲線がCQSARが計算した偏微分係数値である.100%は欠測なしの偏微分係数値である.本図は関数値を精度良く近似していても偏微分係数が精度良く計算できない場合があることを示し,原因調査の際の危険性を示唆する.特に説明変数#3が結果に寄与しないのに寄与があるように計算される点は問題である.この原因は4.5節に示した.
Figure 6N=21 (有効データ数11)のときのCQSARの出力と真値との差を示す.Figure 6はCQSARが高精度で#5関数をシミュレーションしていることを示す.サンプリング数13の時よりもSD値が0に近く精度が高い.絶対値最大の偏微分係数の説明変数(Table 1の#3-4関数)の偏微分係数をFigure 7に示す.


Figure 6. CQSAR outputs, the expectations and the differences in case of defect-pattern A. The descriptors are calculated by sampling of functions in Table 2, and the teaching data are got from the function #5. The number of each sampling is 21, and the defect ratio is 50%, and the effective data are 11. The defect data are ordered alternatively. "Neural network" index shows CQSAR's outputs, the black points are learning data, the white points are defects. The D line is the difference, SD=0.0096.


Figure 7. Partial derivative coefficients for the function #3-4 in Table 2. The number of each sampling is 21, and the defect ratio is 50% (The effective data are 11). The "100%" index shows derivatives in case of no-defects, which are expectations of 50%-curve.

Figure 7はサンプリング数21(有効データ数11)で現象の原因を調べることが可能であることを示している.説明変数#3の無寄与性も無欠測の場合と曲線が完全に重なり正しく計算された.
以上,欠測率50%まではデータ数が11以上あればCQSARは偏微分係数まで計算可能であった.しかし欠測率75%ではデータ数が27〜45であっても偏微分係数は正しく計算できなかった.我々はCQSARの適用限界は欠測率50%までと判断する.

6 結語

多変量解析は薬理活性解析,環境問題解析などに有用であるが,観測に欠測があると単なる説明変数のデータ数の減少に止まらず,複数の説明変数中の一欠測が他の説明変数の相当部分を使用不可とする.そのために多変量解析が不可能となる場合がある.本論文では欠測率50%以下のデータの多変量解析を目的としたCQSAR(法)を提案した.
CQSARの第1段は欠測部を各説明変数,対象現象の観測値を独立に補完することである.補完法の選択は主に観測数に依存し,観測値の分布と連続的変化の有無に依存する.現CQSARではユーザが下記の構成要素を選択する.
  1. 観測ベクトル補完法,
  2. 可変絶対値関数補完法,
  3. 神経回路網補完法.
CQSARの第2段は完全化したデータの神経回路網QSARである.補完データには誤差が含まれている可能性が高いので,その影響を第4.4, 4.5節に考察した.誤差の悪影響を増大させないためのreconstruction learning (一種のsimulated annealing [11])の有効性を示した.
CQSARの適用制限条件は「有効観測数がある程度(経験的には7以上)ないと精度が保証できない」ことである.偏微分係数の精度を要求するのならば11以上データが必要である.さまざまな化学現象問題に適用可能である.

参考文献

[ 1] J. Kambe, U. Nagashima, A. Yamauchi, T. Aoyama, Water Quality Comparison of the Donau, Based on OECD Reports, J. Comput. Chem. Jpn., 6, 91-102 (2007).
[ 2] D. E. Rumelhart, J. L. McClelland, and PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition Vol.1,2, MIT press (Pr), ISBN: 0262181231.
[ 3] T. Aoyama, Y. Suzuki, H. Ichikawa, Neural Networks Applied to Quantitative Structure-Activity Relationship Analysis, J. Medicinal Chem., 33, 2583-2590 (1990).
[ 4] 渡辺美智子,山口和範, EMアルゴリズムと不完全データの諸問題, 多賀出版, ISBN:4-8115-5701-8.
[ 5] 東洋大,渡辺美智子教授のWeb資料:
http://stat.eco.toyo.ac.jp/~michiko/em/emohp(0)/emohp.ppt
[ 6] K. Bitou, Y.Yuan, T. Aoyama, U. Nagashima, A new learning algorithm for incomplete data sets and multi-layer neural networks, Proceedings of International Conference on Control Automation and Systems, 2003, CD-ROM (TA06-04).
[ 7] The algorithm is found first in the Gaussian 70 program of Quantum Chemistry Program Exchange.
[ 8] T. Aoyama, and H. Ichikawa, Reconstruction of Weight Matrices in Neural Network, a Method Correlating Output with Input, Chem. Pharm. Bull., 39, 1222 (1991).
[ 9] 構造活性相関懇話会, 薬物の構造活性相関 ドラッグデザインと作用機作研究への指針 化学の領域増刊122号, 南江堂, 東京 (1979).
[10] T. Aoyama, H. Zhu, and I. Yoshihara, Forecasting of the chaos by iterations including multi-layer neural-network, Proceedings of International Joint Conference on Neural Network, 2000, CD-ROM (71_04.pdf).
[11] 三木光範教授(同志社大学)主催のSimulated annealing GroupのHP:
http://mikilab.doshisha.ac.jp/dia/research/SA/

付録1 スケーリング

神経回路網のニューロンの値は[0,1]区間にある.一方,観測値は任意の値を取る.両者を適合させるためスケーリングが行われる.

ここでxiは観測値,xmaxはその最大値,xminは最小値である.Fは作業変数である.sはスケールの範囲[s, 1-s]を決める定数である.s=0が普通のスケーリングである.s<>0とするのはxi=0で学習が遅くなるためである.学習速度向上と第三層ニューロンのエミュレーション関数に線形関数を用いた場合の外挿に効果がある.
スケーリングにより観測単位はスケールされ,神経回路網の中ではx'iは無次元として扱う.{x'i}は観測値の変動パターンを強調したベクトルである.
環境指標データでは{x'i}の要素値の分布が一様にならないことがある.たとえば,水質指標の塩素イオン濃度,電気伝導度などである.これらの指標では観測値の範囲が105にも及ぶ.最大最小値間を一様に配分する方式(A1)では,スケールの範囲の一方の側に観測値が集中して,観測の変動を十分に表現できない.
区間[0, 1]内の変数{xi}分布について,我々は次のように考える.等差数列{z0, z1, z2,...zN}, z0=0, zN=1とするとき,

なる関数s(zi)を定義する.{s(zi)}と定数ベクトル{0.5,...}=0.5との相関係数に相当する,

が0<<rのとき分布の一様性に問題がある.ベクトルxと定数ベクトルy=const.の相関関係は,

から計算すると0/0となり正しい相関が求められない.添え字avは平均値を意味する.そのとき便法として微小係数eと数列{-1,...,0,...,1}={zi}を用いて,

とし,0/0問題を回避しても良い.これが可能な場合は相関係数が1に近いほど分布は良いことになる.分布に問題がある場合,薬理学では,

と変換しlog(xi)を改めてxiとしてスケーリングする.物理化学ではイオン濃度で,-log=pがしばしば用いられる.これは物理化学的に意味のある変換であるが,変動パターンとしては観測値の分布が一様になるようにスケーリングすることが望ましい.たとえば,

と再変換しても良い.vが適切に選ばれるならば,それが最も神経回路網の分類機能を引き出すスケーリングである.スケールされた{x'i}には単位が無い.ある事象の原因を調査したいとき,考えられる要因が複数で,その部分が同一単位で測定されているとき,それらを別々に式(A1)でスケーリングしては不適当である.その場合は同一単位部では共通のxmax, xminを使ってスケーリングする必要がある.

付録2 Reconstruction Learning

Reconstruction learning(再構築学習法)のアルゴリズムは以下である.
(1) BP学習を行う.
(2) N回のBP学習の後に1回下記のニューロン間結合荷重消去操作を行う.

z1, z2は定数である.Wx, Wy,添字の用法は本文に同じである.我々は25<=N<=500, z1=z2<=0.04を用いている.
(3) 操作(1)に戻る.ただしBP学習誤差が十分小さいか停留した場合,操作を終了する.
本アルゴリズムは絶対値の大きいニューロン間結合を残す,すなわち結合を強調し淘汰機能を強化する.
Wx®0, Wy®0に相当する別の結合荷重消去法もある.たとえば,

である.そして学習の各iteration stepでWx®Wx', Wy®Wy'とする.これらの式は公表されていない.式(B3)のQSARでの意味は本文中に記した.
式(B4)はニューロン間結合のシナップスの出力には限度がある,という事実に即した消去法である.(B4)を実際に試したところ,過学習で特定の結合が大きくなりすぎるのを防ぐ効果がある.


Return