欠測データ集合を扱う神経回路網法CQSAR:Compensation Quantitative Structure-Activity Relationshipsを用いた環境汚染物質濃度推定と分布図
-韓国ソウル市の場合-

神部 順子, 中山 栄子, 長嶋 雲兵, 青山 智夫


Return

1 はじめに

今日、環境問題は個別の地域を研究する時代から、大域的な地域を関連付けて考えなければならない時代になっている。日本の西に位置し、日本の大気に大きな影響を及ぼす中国・東南アジアは、経済発展の著しい地域であり、そこでの大気汚染はかなり憂慮される状況である。しかし大域的な観測網の整備は進んでおらず、情報の共有も難しい。もともと浮遊粒子状物質(SPM)等の大気汚染物質の分布は連続でありかつ単調であるため、汚染物質の分布図を作成して広い地域の環境汚染特性を直感的に理解することが、環境改善指針などを得るために必要である。しかしながらその測定点は離散的であり、さらに一部に偏っている。そのため環境汚染物質の広がりを見るための分布図をなだらかに表現することは難しい。さらに環境汚染物質の測定には欠測が多く、従来の統計的解析では欠測を含むデータのほとんどが捨て去られるため、多くの情報が失われている。
分布図を作成するには、通常格子データから等高線作図を行う。もちろん非格子データからの作成法があるが、SPMのように測定点の分布の偏りが極端である場合、分布図の作成は難しい。
そのため本研究では、対象となるデータの母集団自体が離散かつ偏在し、しかも欠損も含むデータにも関わらず、得る情報量を最大化する手法である、欠測データ集合を扱う神経回路網法CQSAR: Compensation Quantitative Structure Activity Relationships [1, 2]を用いて格子点上のデータ補間を行い、その補間データを用いて非格子三角法を用いてより精度の高い等高線(分布図)を書くことを韓国ソウルでの観測データを元に試みた。
都市におけるSPMの分布図を検討することは環境汚染源の特定等に利用でき、また、このような測定を何度も行って、建造物の変化等の条件の変化によるSPM分布の変化を見ることで、環境アセスメントに関する情報の抽出が可能となる。

2 方法

2. 1 CQSAR

CQSAR[2, 3]は階層型神経回路網を用いた新しいデータ補間法として使うことができる。階層型神経回路網は因果関係が不明な現象の多変量解析に用いられ、主な用途は環境問題解析、薬理活性解析などである。しかし、それらには測定点のデータが一部存在しないという、欠測問題がしばしば存在する。このようなデータを用いて多変量解析などの統計解析を行う場合、データの欠測はその測定点を表す説明変数が単に減少するというだけでなく、複数の説明変数の組の中の一変数が部分的に欠測していることで、そのデータの組を棄却する必要があるため、値が存在する他の説明変数の該当部分すべてを使用できなくなり、情報の大幅な減少を引き起こす。CQSARは欠測データを補間して解析を行う手法であり、例えば多変量解析では欠測率約50 %までの欠測部を補間して、解析を可能にする。
CQSAR処理はおおまかに2つのステップで構成されている。その第1ステップでは、欠測部を各説明変数と、対象現象の観測値についてそれぞれ独立に補間する。補間法の選択は観測数に依存し、観測値の分布と不連続点の有無に関係する。このステップでの補間法には、次に示す3種類の手法を用いて比較を行った。(1)それぞれの状況に応じた可変絶対値関数法、(2)過去の測定データを関数の離散表現としてパラメータを付加した観測ベクトル補間法、(3)神経回路網と等差数列を使う補間法の3種である。本論文では詳細な比較の結果は示さないが誤差の平均値と総和が最小であった(3)を用いた結果を報告する。
CQSAR処理の第2ステップは第1ステップで完全化したデータを用いて、神経回路網によるQSARをおこなう。第1ステップでの補間誤差が第2ステップでのQSARの結果に与える影響は小さい。

3 観測データとネットワーク構造


Figure 1. Observation points in Seoul (Table 1).

2008年4月13,14日に我々がデジタル粉塵計で観測した31地点の観測データをTable 1に示す。左から測定点の相対的なx、y座標とz座標すなわち観測値である。Figure 1に測定点を示した。図中の番号はTable 1の番号に対応している。
極大点が複数ある多峰性関数で値の変化が急激な場合、階層型神経回路網を用いたデータ補間は信頼性に欠けることが知られている。しかし今回注目している環境汚染物質であるSPMの分布は、極端な多峰性ではなく緩やかな変化を示す。このため、階層型神経回路網を用いた解析が有効であると考えられる。また、多峰性関数において値の変化が緩やかであったとしても、データの欠損がある場合には一般に補間法の適用は困難であるが、CQSARを用い、欠損データを補ってフィッティングを行うことにより、通常の階層型神経回路網による関数フィットと同等の解析結果が得られる。

Table 1. Learning Data
XYZ
131.3334.99111.54
231.3350.80107.47
336.8881.0372.90
437.6863.4498.73
539.4688.1474.36
645.4194.2769.09
751.5666.41106.57
856.3276.4977.30
961.4765.8188.88
1062.8656.13106.47
1162.8670.56113.18
1264.0567.9991.26
1364.8440.92104.25
1465.6426.8983.79
1566.0371.94116.33
1674.1641.3165.37
1775.5575.10100.38
1877.9371.94120.02
1978.3335.9877.76
2079.3259.10125.48
2186.0669.37105.18
2289.0489.13105.44
2391.6140.9295.69
2494.3933.80112.23
2597.1794.66130.71
26100.1458.31102.50
27103.5166.8066.46
28112.0445.0798.76
29112.2431.43148.21
30120.7657.9157.16
31123.1423.7295.11

今回は環境汚染物質のような、なだらかな変化を見るために、巾関数へのフィッテイングで低次の関数を用いる事に習い、学習はニューロン間結合強度消去操作により神経回路網構造を最小化する再構築学習法reconstruction learning [3]を用いた。
CQSERで用いた階層型ニューラルネットワークの構造は、3層であり、中間層のニューロン数は再構築学習法によって最小化された。中間層ニューロン数は3であった。
31点の教師データの学習によってCQSARを用いて補間する点は、31.3<= x <=121.3 および 23.7<= y <=93.7の範囲でそれぞれ10.0おきに合計80点、さらにx = 123.1の8点、y = 95.7の10点を加えた、合計98点である。


Figure 2. Contour map drawn by conventional method using only observed data

教師データの分布とそれらから通常の方法である与えられた点のみを用いたもっとも単純な非格子三角法(Bi-Linear法)で作成した分布図をFigure 2に示す。点間の補間は直線補間である。この図からは中央、右下、右上にSPMの濃い領域があることが伺える。特に右下の濃度が高い。また中央右と下にSPM濃度の低い領域があり、左上にも、SPM濃度の低い領域がある。
Figure 3に教師データの3次元表示として計算機に取り込んだ地図上に等高線を描くことが可能な等高線作画プログラムContourMap97.xla [4]で作成したSPMの分布図を示した。


Figure 3. Contour map drawn by ContourMap97.xla [4] using only observed data

ここで用いている等高線描画方法は、プログラム作成者の早狩によれば「パソコンの能力の低かった時代に、スプライン法の代わりとなる簡便法としてよく用いられていたもの」である。
早狩のアルゴリズムを直感的に説明する。まず与えられた観測点にそのデータの高さの棒を立て、それ以外の点はバックグラウンドデータで埋め尽くしておく。次に観測点はそのままにしてそれ以外の全地点を周囲の値を元に補間する。この時の補間法は、例えば、そのデータの東西南北に接する地点のデータはウェイト3として、斜めに接する地点は2、東西南北の外側を1というウェイトで足し込んで、それらの平均を取るというような方法である。すると、1回目は観測点の周りだけが持ち上がり、それを繰り返すと次第にあたかも棒の上に厚めの布を被せたような形ができあがる。この反復を繰り返し反復毎の全地点の変形具合が閾値を下回ると反復を終了する。この方法は、観測地点の値は保持されることと、観測点が少ないと独立峰ができやすいという特徴がある。そのため、観測点は多いほど良好である。早狩は、これを簡易スプライン法と呼んでいるが正式な呼称ではないとのことである。
等高線を結ぶ方法は、上記方法で格子点の値が決まると、等高線を引く値を通るグリッドの1マスを探し、その値がそのマスのどの辺から入るか探した後、そこから他の3辺の内どれを横切るかを探索する。 それがわかればそのマスを横切る直線を描くことができる。 次に出口の辺で接する隣のマスについて次の3辺を探す。それを繰り返して次々と直線を結んでいくと等高線の曲線になる。このような直線の集合体の場合、できあがった図はすごく重いものになり、図をスクロールするだけでも時間がかかってしまうので、使い物にならない。そこで、実際のプログラムでは交点を結ぶ曲線を、Excelの標準描画作成機能で描いている。
このアルゴリズムでは補外はできないので、Figure 3では、外周の観測点の近傍までは許容するとして,観測点から遠い部分をマスクしてある。図中円状の閉曲線が多いのは観測点が少なくかつ分布が偏在しているからである。
この分布図では、ソウル地下鉄環状線にそって繁華街がありそこでの汚染が大となっているといった印象が得られる。

4 結果

4. 1 学習

Table 2に学習結果を示した。学習の閾値は0.1である。23, 26, 29番目の3つの観測点に25 %以上の大きなエラーが観測されているが、平均10 %程度のエラーで学習が行われている。

Table 2. Result of Learning.
estobs.Dabs.D%
1116.88111.545.354.57
2106.87107.470.600.56
375.5272.902.623.47
498.3898.730.350.36
570.6574.363.715.25
670.8269.091.732.44
789.79106.5716.7818.69
887.6177.3010.3111.77
9100.9288.8812.0411.93
10107.86106.471.401.30
1199.33113.1813.8613.95
12102.2691.2611.0110.76
13105.65104.251.391.32
1487.1883.793.393.89
15101.88116.3314.4514.18
1668.7965.373.424.97
17109.04100.388.657.94
18112.03120.027.997.13
1972.5677.765.207.16
20115.48125.489.998.65
21116.50105.1811.329.72
22112.86105.447.436.58
2374.7795.6920.9327.99
24105.55112.236.686.33
25115.56130.7115.1413.11
2670.30102.5032.2045.80
2770.5066.464.055.74
2892.9398.765.826.27
29110.00148.2138.2134.73
3071.1857.1614.0219.70
31109.7495.1114.6213.33
aver.9.8310.63

23, 26, 29番目の3つの観測点での25 %以上の大きなエラーの原因は不明である。ただNo.23, 26は変位ベクトルが小さく、No.29は逆に大きい。これをなだらかにつなぐよう(つじつまを合わせるように)アルゴリズムが補間を行うために、これら3点で無理が生じた可能性がある。補間方法の改良の余地があることがわかる。

4. 2 CQSARによるデータ補間と分布図

CQSARによる補完されたデータに教師データを加えた129点とそれらから作られた分布図(下)をFigure 4に示した。Figure 4下は通常の方法である与えられた点のみを用いたもっとも単純な非格子三角法(Bi-Linear法)で作成した。この時、点間の補間は直線補間である。


Figure 4. Distribution of estimated data and map

Figure 4(と, 3)とは印象がだいぶ違う。特に左下にSPMの濃い領域が存在する。補間したデータを使うことにより、Figure 3に見られるような測定点が特に強調されることもなく、なだらかな分布図が得られている。
Figure 2(と, 3)では、図右下(測定点24, 29)と中央部(測定点18, 20)、および右上(測定点25)にSPMの分布が多い領域があり、それらは独立している。ところがFigure 4では、ソウル市南西の環状線に沿った繁華街(測定点1,2,3近傍)から測定点22, 25の北東の方向に帯状にSPMの分布が多い領域があり、それに平行に繁華街の東側の測定点14, 16から北東の測定点26, 27に向かって帯状にSPM濃度の低い領域があることが判る。
Figure 2(と, 3)、および4のどちらの分布が妥当であるかは、測定点の数を大幅に増やす等、より詳細な観測を行なって確かめる必要があるが、現状ではそのような測定は不可能である。ここに環境データ測定の難しさがある。

5 まとめ

2008年4月の韓国ソウル市において行ったSPM測定データを用い、測定点が離散的でかつ疎である場合の分布図を、CQSARを用いて補間した点を用いて描くことで、近似的であるが、大まかな分布図を効率よく求めることができることが判った。

計算機に取り込んだ地図上に等高線描画する等高線描画プログラムContourMap97.xlaを提供してくださった早狩 進氏に深く感謝する。本研究の一部は、地球環境研究総合推進費 H19地球環境研究革新型研究課題 代表:神部順子、および(財)鉄鋼業環境保全技術開発基金(FY2007)代表:中山栄子の補助を受けている。

参考文献

[ 1] Bitou, K., Yuan, Y., Aoyama, T., Nagashima, U., Proceedings of International Conference on Control Automation and Systems 2003, CD-ROM (TA06-04), 10.22-25 (2003).
[ 2] 青山智夫, 神部順子, 長嶋雲兵, J. Comput. Chem. Jpn., Vol. 6, 263-274 (2007).
[ 3] Aoyama, T., Ichikawa, H., Chem. Pharm. Bull., 39, 1222-1228 (1991).
[ 4] 早狩 進、等高線描画プログラム ContourMap97.xla
http://www.jomon.ne.jp/~hayakari/


Return