複合化学センサシステムにおけるパターン認識の視覚化

吉村 忠与志, 青山 義弘, 上嶋 晃智


Return

1 はじめに

複合化した化学センサシステムにおいて計測される多変量データの解析に主成分分析法(PC)がよく用いられる。主成分のスコア値は3次元以上のデータ群である。しかし、3次元データを表示する効果的なグラフィックツールはほとんど無い。本論文では、主成分スコアの3次元表示にステレオペア法[1]の有用性を論じた。
測定対象の特徴を把握するには、多変量・多変数のデータを求めるのが一般的であり、そのようなデータを的確に評価する手法として、多変量解析法がある[2 - 16]。本報では主成分分析法について簡潔に述べ、総合特性値をどのように得て視覚化をするかを記述する。
多次元データの図示法にはこのほかに、レーダチャート、二次元および三次元空間写像などがある。写像法には、線形写像法(Karhunen-Loeve変換)と非線形写像法がある。前者は、多変量解析法の主成分分析法の結果を利用して、二次元あるいは三次元空間にデータの集合を写像することにより図示する手法で、このプロットをK−Lプロット(Karhunen-Loeve plot)という。d次元パターンを2次元に写像する例であるが、その写像への信頼性は累積寄与率を95%以上説明できる主成分数で図示する。しかし、2次元での図形表示は必ずしも適切ではなく、3次元写像を必要とすることが多い。本報では、3次元写像で用いられる虫ピン散布図の表示と、新たに提案するステレオペア散布図表示における近接するクラスタの分別視の有用性を論じる。

2 複合イオンセンサシステムによるリンゴワインの酒造工程の場合

イオン選択性電極を7種複合化したマルチチャンネル計測システムを開発し、化学調味料の味覚評価[17]、リンゴワインの酒造工程の味覚評価[18]、竹炭の水浄化過程の測定[19]における成果を報告した。その時点では、2次元図示から3次元図示の必要性を論じていたが、今後の課題としてきた[20]。
報文[18]では、リンゴワインの酒造工程をマルチチャンネル計測システムで計測管理した成果を報告した。サンプリングした試料は人による味覚評価も合わせて実施した。複合した7種のイオンセンサの出力電圧値はFigure 1のとおりである。これらの複合した7種類のイオンセンサ(NH3, K, Cl, Na, Ca, H, CO2)出力電圧値を次のように主成分分析を行ない、各主成分Ziを求めたのがTable 1である。
n個のd次元データ(xi k, i = 1, 2, ..., n; k = 1, 2, ..., d)を二次元空間へ写像するために、固有値の最大のもの、2番目のもの、そして3番目のものに対応する固有ベクトルt1, t2, t3を使って、3次元パターンZiに変換する。
Zib = Sxi k tkb          (b = 1 ~ 3)
Z1, Z2, Z3軸はもとのデータ集合の線形結合における第1主成分軸、第2主成分軸、第3主成分軸である。主成分数を決定する基準として寄与率があり、各主成分が元の情報をどの程度反映しているかを表す。累積寄与率は各主成分の寄与率を累積する。
味覚評価[18]から、第1日目から10日目まではアルコール発酵初期、11日目から20日目まではワイン主発酵期、21日目からはワイン熟成期と判定した。この3つの酒造工程を区別するために、Figure 2の散布図ではプロット点を変えることにする(Table 1の表記マークは丸に色別するもので、上から黒丸、白丸、赤角となっている)。
先に示した主成分分析を行なったところ、累積寄与率は第3主成分で86.8%と低く、第5主成分で96.6%となっていた。Excel等の処理では、2次元散布図がFigure 2のように作成される。第2主成分まででは累積寄与率は74.1%となっていて、Figure 2では十分にクラスタとしての分別視が出来ないと思われる。
主成分分析の結果は、教師なし学習による総合特性値を求めるものであり、累積寄与率が95%を越える主成分数で表示しようとすると、Figure 2の場合第5主成分軸まで作成しなければならないが、写像方法では3次元が限界である。そこで、虫ピン3次元散布図をFigure 3に示す。虫ピン表示方法は一般のグラフ表示として定着している[19]。しかし、Figure 3のようなデータ集合体の場合、プロット点を変えて表示してもクラスタに分別視することはむずかしいものがある。


Figure 1. The aging variation of output voltage value (mV) of each ion sensor in the brewing process of apple wine[18].

Table 1. The score of the principal component data.
DayMarkZ1Z2Z3
13.256-0.715-0.652
23.3232.8190.786
30.856-1.4231.014
40.6300.7960.929
53.023-1.462-1.274
61.450-0.1080.283
71.1600.727-0.977
82.099-1.8010.575
91.748-2.7260.170
100.669-0.470-0.091
110.5321.504-1.114
12-0.2882.501-0.550
130.4260.4101.752
14-1.207-0.1711.305
15-1.0900.2881.008
16-1.3821.8550.013
17-2.1320.878-0.236
18-0.5450.899-1.482
19-0.5850.9731.898
20-0.089-0.364-1.222
21-0.9651.127-0.631
22-1.203-0.072-0.870
23-1.907-2.4120.009
累積寄与率0.4560.7410.868


Figure 2. K-L plotting of the first (Z1) and the second (Z2) of the PC data. Mark is in accord with Table 1.


Figure 3. The insect-pin three-dimensional scatter diagram. Mark is in accord with Table 1.


Figure 4. The stereo pair scatter diagram.  Mark is in accord with Table 1. (f=25°, q=15°, y=3°)


Figure 5. The stereo pair scatter diagram.  Mark is in accord with Table 1. (f=50°, q=30°, y=3°)

3 ステレオペア表示による3次元散布図の作成

虫ピン表示による写像法は分離してみたいクラスタが近くで集合しているような場合は適切な表現方法とはいえないのである。そこで、3次元散布図をステレオペアで表示することを考えた。パソコン保持者が持っている表計算ソフトExcel/VBAでステレオペアの散布図を作成するプログラムを開発した。ステレオペアの作成には、森口[21]の方法を引用した。VBAマクロ・プログラムの一部を付録で示す。データ数は30個以内と限定した。Call文でのサブルーチンはグラフィックルーチン[21]で、本文では省略する。
この散布図は第1主成分(Z1)から第3主成分(Z3)についてプロットし、軸の幅を±1に換算して表示している。
立体視する角度を変化できるように、xy平面をf、xz平面をq、そして、変化させたxyz面をyだけ回転した図を作成するようにした。付録リストのFigure 7の値はf=50°, q=30°, y=3°で、回転させたものを作図するためである。3次元散布図をステレオペア表示する試みは本報の独自的なものである。付録のFigure 6にシート上での作図の様子を図示する。累積寄与率の悪いデータでもステレオペア立体表示でクラスタの分別視が出来た。累積寄与率が悪い場合、分別視したいクラスタが近接していることが多く、平面投影の虫ピン表示では不可能な分別視がステレオペアで可能となった。
回転の角度をFigure 4ではf=25°, q=15°, y=3°に、Figure 5ではf=50°, q=30°, y=3°にセットしたものを作成した。両方の図を立体視で凝視されると、3種類のプロット点が3次元空間で位置している様子が観察される。

4 おわりに

ケモメトリックスにおいて、化学センサを複合して得られた化学情報をパターン認識法で解析する情報処理が多い。主成分分析において主成分軸での散布図の視覚化が検討される中で、近接するクラスタを分別視する方法は虫ピン散布図までであったが、ステレオペア散布図を提案することにより、分別視できなかったものも視覚化することができ、有用であった。また、よく普及している表計算ソフトExcel/VBAを用いて簡単なプログラムでステレオペア散布図を作成できることを報告した。

5 付録

Excelシート上の作図の様子をFigure 6に示す。さらに、ステレオペアの散布図を作成するためのVBAマクロ・プログラムの一部をFigure 7に示す。


Figure 6. The aspect of the construction on Excel sheet.


Figure 7. Micro-program list of the stereo pair scatter diagram.

参考文献

[ 1] 大岩正芳, 分子の立体図を描こう, 化学, 35(1), 38 (1980).
[ 2] 吉村忠与志,青山義弘, 化学のための計測制御入門, 日本フイルコン (1997).
[ 3] 宮下芳勝,佐々木慎一, ケモメトリックス−化学パターン認識と多変量解析−, 共立出版 (1995), p.11.
[ 4] 奥野恵一,久米均,芳賀敏郎,吉澤正, 多変量解析法, 日科技連 (1971).
[ 5] P.C.Jurs,B.R.Kowalski,T.L.Isenhour, Anal. Chem., 41, 21 (1969).
[ 6] B.R.Kowalski, Computers in Chemical and Biochemical Research, vol.2, ed. by C.E.Klopfenstein,C.L.Wilkins, Academic Press, New York (1977).
[ 7] 佐々木慎一,阿部英次,高橋由雅,高山千代蔵,官下芳勝, 化学者のためのパターン認識序説, 東京化学同人 (1984).
[ 8] S. Wold, M. Sjostrom, Chemometrics: Theory and Applications, ed. by B. R. Kowalski, Am. Chem. Soc., Washington D. C. (1977), p.165.
[ 9] 金谷重彦,吉村忠与志,宮下芳勝,佐々木慎一, 日本化学会第53秋季年会講演予稿集I, 187 (1986).
H. Abe, T. Yoshimura, S. Kanaya, Y. Takahashi, Y. Miyashita, S. Sasaki, Anal. Chim. Acta, 194, 1 (1987).
[10] 船津公人, CICSJ Bulletin, 15(6), 3 (1997).
[11] 宮下芳勝,佐々木慎一, ケモメトリックス−化学パターン認識と多変量解析−, 共立出版 (1995), p.143.
Y. Takahashi, Y. Miyashita, Y. Tanaka, H. Abe, S. Sasaki, J. Med. Chem., 25, 1245 (1982).
[12] 構造活性相関懇話会編, 薬物の構造活性相関:ドラッグデザインと作用機作研究への指針, 南江堂 (1979).
[13] 吉村忠与志,竹澤博士,笠島徹,加藤浩二,藤上義弘, 分析化学, 43, 873 (1994).
[14] 吉村忠与志, 斉藤政晴, 分析化学, 39, T151 (1990).
[15] D. Coomans, I. Broeckaert, Potential Pattern Recognition in Chemical and Medical Decision Marking, Research Studies Press, England (1986), 59.
[16] 吉村忠与志, 分析化学, 37, 612 (1988).
[17] Tadayosi Yoshimura, Akira Yoshida, Yoshihiro Aoyama, Denki Kagaku, 64, 1244 (1996).
[18] 青山義弘, 南友和, 吉村忠与志, 山田明文, 電気化学会技術・教育研究論文誌, 7, 139 (1998).
[19] 吉村忠与志, 土田耕三, 青山義弘, 電気学会論文誌E(センサ・マイクロマイン準部門誌), 121-E, 376 (2001).
[20] 青山義弘, 野原啓介, 吉村忠与志, 山田明文, 電気化学会技術・教育研究論文誌, 9, 87 (2000).
[21] 森口繁一, Excel/VBA基礎指南, 日本規格協会 (2000), p.120.


Return