欠測データ集合を扱う神経回路網法CQSAR:Compensation Quantitative Structure-Activity Relationshipsを用いた環境指標データの補完と分布図

神部 順子, 長嶋 雲兵, 青山 智夫


Return

1 はじめに

環境問題は狭い個別の地域を研究する時代から、大域的な広い地域を関連付けて考えなければならない時代になっている。特に日本の西に位置し、日本の大気に大きな影響を及ぼす中国・東南アジアは、経済発展の著しい地域であり、そこでの大気汚染はかなり憂慮される状況であることが最近知られるようになってきた。
ところが、大気汚染指標である窒素酸化物(NOx)や浮遊粒子状物質(Suspended Particulate Matter: SPM)などのデータの実際の測定点は、離散的、かつ疎であり、また一部に偏っている。さらにそれらは欠測が多く、従来の統計的解析では欠測を含むデータのほとんどが捨て去られるため、多くの情報が失われている。
Figure 1に2005年4月の東京都、千葉県、埼玉県、川崎市のSPMの月間平均測定点を示す。[1]この例では測定点が東京湾岸に集中していることが判るが、SPMの濃度分布を直感的に理解することはむずかしい。この種の分布を直感的な表現とするためには、等高線による分布図が用いられる。ところが、先にも述べたように、大気環境データの測定点は離散的、かつ疎であり、また一部に偏っているという性質があるため、通常の三角格子を用いる等高線作図法では、分布図の作成は難しい。
そのため本研究では、欠測データ集合を扱う神経回路網法CQSAR: Compensation Quantitative Structure Activity Relationships [2, 3]を用いて格子点上のデータ補完を行い、その補完データを用いて分布図を書くことを試みた。


Figure 1. Observation points and monthly averaged density of SPM in and around Tokyo in April, 2005.

2 CQSAR

CQSAR[2, 3]は階層型神経回路網を用いた新しいデータ補間法として使うことができる。階層型神経回路網は因果関係が不明な現象の多変量解析に用いられ、主な用途は環境問題解析、薬理活性解析などである。しかし、それらには測定点のデータが一部存在しないという、欠測問題がしばしば存在する。このようなデータを用いて多変量解析などの統計解析を行う場合、データの欠測はその測定点を表す説明変数が単に減少するというだけでなく、複数の説明変数の組の中の一変数が部分的に欠測していることで、そのデータの組を棄却する必要があるため、値が存在する他の説明変数の該当部分すべてを使用できなくなり、情報の大幅な減少を引き起こす。CQSARは欠測データを補完して解析を行う手法であり、例えば多変量解析では欠測率約50%までの欠測部を補完して、解析を可能にする。
CQSAR処理はおおまかに2つのステップで構成されている。その第1ステップでは、欠測部を各説明変数と、対象現象の観測値についてそれぞれ独立に補間する。補間法の選択は観測数に依存し、観測値の分布と不連続点の有無に関係する。このステップでの補間法には、次に示す3種類の手法を用いて比較を行った。(1)それぞれの状況に応じた可変絶対値関数法、(2)過去の測定データを関数の離散表現としてパラメータを付加した観測ベクトル補間法、(3)神経回路網と等差数列を使う補間法の3種である。本論文では詳細な比較の結果は示さないが誤差の平均値と総和が最小であった(3)を用いた結果を報告する。
CQSAR処理の第2ステップは第1ステップで完全化したデータを用いて、神経回路網によるQSARをおこなう。第1ステップでの補間誤差が第2ステップでのQSARの結果に与える影響は小さい。第2ステップでのQSAR用の神経回路網学習ではsimulated annealing操作を行った。
極大点が複数ある多峰性関数で値の変化が急激な場合には、階層型神経回路網を用いたデータ補間は信頼性に欠けることが知られている。しかし今回注目している環境汚染物質であるSPMの分布は、極端な多峰性ではなく緩やかな変化を示す。このため、階層型神経回路網を用いた解析が有効であること考えられる。また、多峰性関数において値の変化が緩やかであったとしても、データの欠損がある場合には一般に補間法の適用は困難であるが、CQSARを用い、欠損データを補ってフィッティングを行うことにより、通常の階層型神経回路網による関数フィットと同等の解析結果が得られる。今回は環境汚染物質のような、なだらかな変化を見るために、巾関数へのフィッテイングで低次の関数を用いる事に習い、学習は一般的なバックプロパゲーション学習よりもニューロン間結合強度消去操作により神経回路網構造を最小化する再構築学習法reconstruction learning[4]を用いた。

3 模式的分布図

3. 1 学習用サンプルデータとネットワーク構造

CQSARを用いた、分布図作成の妥当性を検討するために、以下に示す模式的分布図を用いた解析を行った。
学習用サンプルデータは、仮想的に作成した鞍点を持つ2峰2谷型のデータ961点(=31×31)(Figure 2) から10点をランダムにサンプルした。(Figure 3上)


Figure 2. Schematic distribution


Figure 3. Distribution of Sample Learning Data and map made by conventional Bi-Linear method

学習用サンプルデータと学習結果をTable 1に示す。左から測定点の座標(x, y)とその点での観測値(given)を示している。その右のest. およびerrorは学習結果である。Table 1に示した10点(Figure 2のデータからランダムに採取された点)を学習用サンプルデータとした。

Table 1. Learning data and estimated values
error
xygivenest.abs.rel %
5093.243.743.950.250.58
64.880.427.934.646.7424.17
77.375.437.239.071.875.02
87.165.734.445.3810.9831.92
96.556.941.343.992.696.51
57.97944.243.980.220.50
63.981.934.835.410.611.75
75.797.220.522.191.698.23
88.176.657.349.747.5613.19
97.255.646.343.492.816.06
aver.3.549.79

Figure 3に学習用サンプルデータの2次元表示(上)と通常の方法である与えられた点のみを用いたもっとも単純な非格子三角法(Bi-Linear法)で作成した分布図(下)を示した。この時、非格子三角法の点間の補間は直線補間である。このサンプル教師データは離散的で偏りがあり、これらの点から単純な非格子三角法(Bi-Linear法)で作成された分布図(Figure 3下)はきわめて表示範囲が狭く、奇妙な図となる。
学習用サンプルデータを学習することによって得られた近似曲面から補完(補間)する点は、50.0≦ x, y ≦100.0の範囲でそれぞれ0.5おきに合計121点(=11×11)である。(Figure 4上)


Figure 4. Distribution of estimated data and map

CQSARで用いた階層型ニューラルネットワークは3層構造であり、入力層は座標(x, y)に対応する入力を2個、出力層はその点の値に対応する出力を1個とした。中間層のニューロン数は再構築学習法[4]によって最小化した。学習の閾値は0.01とし、1000回の試行毎に、ネットワークの結合重みを調べ、0.01以下の重みしか持たない中間層ニューロンを削除した。最終的な中間層のニューロン数は3個となった。

3. 2 CQSARによるデータ補完と分布図

学習の閾値は0.01であるが、Table 1を見ると平均10%程度の相対誤差で与えられた学習データを再現していることが判る。誤差の大きい学習点は2点有るが、そこが大きなエラーをもつ原因は不明である。
Figure 4に、描画に用いた131点(CQSARによる補間点121+教師データ10点)とそれらから作られる分布図を示す。Figure 4上の図で格子点の上(図の格子と一致しない点)にない10点が教師データである。
Figure 2と比較してみると、教師データ周辺は良く再現されており、全体的にたかだか10点のサンプリングと、CQSARの補間によって鞍点を持つ谷の形状が良く再現されていることがわかる。サンプリングが全く無い左下および右上側に見られるように、外挿点の精度はわるいが、大まかな形は良くとらえられている。
本方法による分布図描画の限界は、CQSARによる補間データを用いた階層型神経回路網による関数フィットの能力に依存する。よく知られているように、階層型神経回路網による関数フィットは、微分不能な点がいくつかあるような急激な変化を起こす場合、その変化への追従が難しいという傾向を持つ。またFFTや多項式フィットなどに見られるような、外挿点での特異な振る舞いは見られないが、内挿に比べ外挿の精度が落ちることなどもよく知られている。しかし、今回の例のように、比較的なだらかな変化をするデータに対しては、CQSARを用いて分布図の傾向を再現可能であることがわかった。さらに学習の閾値が小さすぎると過学習の恐れがあるが、学習の閾値を適当に選ぶことにより適当な平滑化を行うこともできる。

4 千葉県西部のSPM分布

2008年4月28日12:00のFigure 5に示す千葉県西部の観測点の内からランダムに6点(Table 2)を選択し、CQSARを用いて91点(7×13)を補間して描いたSPM分布図(Figure 6)を示す。


Figure 5. Observation points of western Chiba.

Table 2. SPM observation points of the west Chiba
pos.ELNLAddress
135.69309140.0966千葉市花見川
235.6382140.1161千葉市稲毛区天台
335.69254139.9233市川市富浜
435.74537139.9958船橋市丸山
535.78765139.9032松戸市根本
635.85707139.9033流山市平和台


Figure 6. SPM distribution of west Chiba area at 12:00, April 28,2008.

Figure 6の上で、格子点上にない(図の格子と一致しない) 6点が観測点である。下図の下側が東京湾岸で、左側が東京都である。東京都に接する東京湾岸(南西)のSPM濃度が高く、右上(北東)に向かって緩やかにSPM濃度が低くなっていく様子が直感的に判る。
Table 3に、各観測点での観測値と予測値、絶対誤差、相対誤差を示した。最大30%、平均10%のエラーを持つことがわかる。千葉県西部のSPMの分布図の場合、図の端点の誤差が大きい。

Table 3. Observed and estimated values with error
Error
pos.Obs.Est.abs.rel. %
10.0260.0250.00155.7
20.0220.0240.00188.2
30.0430.0420.00071.5
40.0290.0260.00289.6
50.0210.0270.006128.8
60.0290.0270.00227.4
aver.0.002510.2

5 まとめ

測定点が離散的で、かつ疎である場合の分布図を、CQSARを用いて補完した点を用いて描くことで、近似的であるが、大まかな分布図を効率よく求めることができることが判った。

本研究の一部は、地球環境研究総合推進費 H19地球環境研究革新型研究課題浮遊粒子状物質(SPM)および大気汚染物質の脳型多変量解析技法の開発(FY2007−FY2008)代表:神部順子の補助を受けている。

参考文献

[ 1] 神部順子、中山栄子、青山智夫、長嶋雲兵、2007日本コンピュータ化学会秋季年会1P05、2007年、兵庫.
http://media.laic.u-hyogo.ac.jp/%7Ehayashi/SCCJ2007/abstract-pdf/SCCJ2007au-1P05.pdf
[ 2] Bitou, K., Yuan, Y., Aoyama, T., Nagashima, U., Proceedings of International Conference on Control Automation and Systems 2003, CD-ROM (TA06-04),10.22-25, 2003.
[ 3] 青山智夫, 神部順子, 長嶋雲兵, J. Comput. Chem. Jpn., 6, 263-274 (2007).
[ 4] Aoyama, T., Ichikawa, H., Chem. Pharm. Bull., 39, 1222-1228 (1991).


Return