高分解能分子スペクトル文献データベース: HRMSDBの開発

廣田 栄治, 及川 昭文, 金森 英人, 福田 朋子, 長嶋 雲兵


Return

1 はじめに

我々は、高分解能分子スペクトルデータベース(HRMSDB)の開発を開始した。2004年1月に試験的に産業技術総合研究所先端情報計算センターRIODB[1]で公開を開始したので概要を報告する。URLはhttp://www.aist.go.jp/RIODB/hrmsdb/index.htmlである。
HRMSDBは、高分解能分子スペクトルから得られる分子の構造、回転定数他を報告した文献をデータベースとして公開することを目的とした文献データベースであり、著者の一人の廣田が1950年から2004年までに選択収集した、高精度な実験的・理論的スペクトルに関する約20,000の論文をそれぞれノート1ページほどに要約し、データベースとしてまとめた物である。試験公開版では2000年までのデータが公開されている。
これは、網羅的な大規模データベースに見られるような玉石混淆の多量のデータを保持するより、当該分野の専門的な観点から評価と再編集を行うことで,より信頼性の高いデータを提供するという最近の世界的なデータベース構築の傾向に沿ったものであり、学術的に意義が高い。また論文の詳細がノート1ページに要約されているために、ユーザが原著論文を詳しく読む労力を軽減する。
本データベースは、電波天文学における分子の同定や超高精度分子軌道計算の参照データとして、また高エネルギープラズマ物理などの参照データとしてのマイクロ波分光、レーザー分光などの測定結果の文献を与え、広範囲な応用分野を持つ。本データベースの特徴は、高分解能分子スペクトル情報が広範囲に収録されているばかりでなく、廣田の作成したノートが画像としてリンクされており、廣田による要約情報を見ることができる点にある。いいかえると、本データベースの有用性は、各年度の多くの論文の中から,専門的な視点と学識的知見からみて信頼性が高いと判断した論文が収録されていることにある。そのためユーザは玉石混淆である多くの結果から価値のあるものを評価し選択するために多くの論文に当たる必要が無く、研究における情報検索の時間を大幅に減少できる。
現在のデータ公開件数は7849件であり、1950年から2000年までの収録データの変化をFigure 1に示した。ばらつきがあるとはいえ1960年から急速に論文数が増加し、大まかに10年で100報の割合で収録論文数が増加している。


Figure 1. The Number of Collected Papers during 1950-2000

2 検索

トップページ上に青色で表示されたSearch pageをクリックすると、検索画面(Figure 2)に移動する。HRMSDBのそれぞれのレコードは、12項目からなっており、それぞれNo.、ID、 構造式(Molecule)、 論文題目(Title)、著者名(Authors)、論文誌名(Journal)、 巻(Vol.)、ページ(Page)、発行年(Year)、キーワード(Key word)、廣田の該当ノートへのリンク(Graphic file)、論文のエラーの報告がある場合のID( Errata ID)である。
検索画面のDocument Search(日本語版では全文検索)のボタンを選択すると、12の項目のリストがポップアップする。このリストから各項目を選択し、その項目だけでの検索が可能であるが、ここで何も選択しなければ全ての項目で入力ボックスに入力されたキーワードを一括で検索することができる。(全文検索)このとき入力ボックスの単語間のスペースは、「AND」として検索される。入力ボックスへの最大入力文字数は、半角文字で125文字(全角文字で62文字)である。英数字(A-Z, 0-9等)と、空白文字、「.,'"-=():/~」の入力がゆるされる。ここで検索実行ボタンをクリックすると入力された単語で検索を実行し、検索結果一覧を表示する。検索結果一覧は新しい画面に表示される。またこの検索画面では画面の広さにあわせるために検索結果の表示行数を選択できる。もちろん検索結果の表示順をキー、ソート順で選択することもできる。Figure 3に“ClS”をキーワードとして検索した結果の一覧画面を示す。


Figure 2. Window for Retrieval

先にも述べたが検索画面の入力ボックスに表示された単語間の空白はANDである。この場合4件ヒットしたことが報告され、その一覧が示される。ヒット件数が多い場合は、検索画面で指定した件数ごとの表示が表示方法に従って行われる。再度検索をする場合は、Input Pageをクリックして先に説明した検索画面に戻る。


Figure 3. The result of Search for "ClS"

またGraphic file (本例では17106)をクリックする事で、廣田直筆のノートが画像表示される。廣田のノートは、著者名、論文タイトル、雑誌情報に加え、内容をコンパクトにまとめたコメントが加えられている。それを損なうことなくユーザに提供するために、ノートを画像で表示する。このようなデジタルデータと画像データの混合も本データベースの特徴となっている。この画像も新しい画面に表示される。 Figure 4に本例117106のノートを示した。この画面の図ではFigure 4にある文献番号(117106)の最初の1がなく17106と表示されている。これは、すべてのレコードに対して同様である。


Figure 4. A display of Hirota's Note for literature 117106The first digit 1 of 117106 was removed in the figure to give 17106

Figure 5に2004年と2005年の月ごとのアクセス件数を示した。公開から2004年10月まではほぼ500件であったが、11月から上昇し12月に1000件を越えた。2005年は3月には2300件を越えたが、現在、減少傾向にある。


Figure 5. The monthly access number from January 2004 to June 2005

3 終わりに

HRMSDBは気体のマイクロ波分光、レーザー分光など高分解能分光法を用いた研究の成果を集めたものである。現在も世界各地で行われている最新の高品質な研究成果を網羅すべく開発を継続している。 分子分光は他に例をみないほどの高分解能であるので、一本の吸収線から分子を同定することも可能であり、実験室内での複雑な反応系の中に存在する分子種の同定のみならず宇宙空間の分子雲からの電波を解析して宇宙空間の分子種の分布を調べることも可能である。本データベースは、電波天文学における分子の同定や超高精度分子軌道計算の参照データとして、また高エネルギープラズマ物理などの参照データとしてのマイクロ波分光測定結果の高品質な文献を与え、広範囲な応用分野を持つ。
本データベースがそういった研究に広く役立つよう、今後とも開発を継続していく。
今後の課題として、ピーク位置からの候補分子検索があげられる。ピーク位置を入力すると候補分子がリストされるというものである。残念ながら、本データベースでは、今のところ、分子種からの検索は可能であるが、ピーク位置からの検索は不能である。分子種と測定結果との関係をより明確に示すためには、双方向の検索が必要である。測定結果からの検索の実現は本データベース開発の今後の課題である。

本研究の一部は 産総研先端情報計算センター研究情報公開データベースRIODB開発プロジェクトの支援を受けている。

参考文献

[ 1] http://www.aist.go.jp/RIODB/riohomej.htm


Return