2022年度表彰
日本コンピュータ化学会 2022年度 吉田賞(論文賞)
【受賞論文】
特許公開公報文章からの化学物質名の抽出
田中 るみ子 1), 中山 伸一 2)
1) 筑波大学大学院図書館情報メディア研究科
2) 筑波大学図書館情報メディア系
Journal of Computer Chemistry, Japan, Vol. 21(2022), No. 1, pp.1-9
【受賞理由】
学術論文や特許などの文献に収録されている化学知識の活用は、新しい化合物や反応を開発する際に欠かせない基盤要素です。しかし、これまでの化学情報の抽出・整理方法は、手作業による膨大な時間と労力を要するものでした。特に、日本語文献の場合、単語が空白や記号で区切られていないため、化学物質名をひとかたまりの単語として扱うには、形態素解析による単語区切り、分離された単語の連結、さらには、連結による不要部分の分離などが必要で、従来の形態素解析や単語分割手法だけでは効率的な情報抽出が困難でした。
本論文では、こうした課題に対処する一連の方法を考案して、特許公開公報に化学物質名をタグ付けしたコーパスを作成し、単語切り出しとWord2Vecによるベクトル化を行うことで、日本語文からの化学物質名抽出の可能性を複数の機械学習モデルを用いて検証しました。これにより、高い割合で化学物質名を単語として切り出すことができ、その文字種、配置、前後の関係、文脈などの特徴を捉えることによって高い精度で化学物質名の抽出が可能となりました。
本論文の成果は化学分野における最新の機械学習技術の発展に貢献するとともに、化学物質名の抽出技術の向上によって化学研究者や企業が必要とする情報を迅速かつ正確に入手することが可能となり、化学分野の研究開発や産業応用が加速することが期待されます。また、日本語文に特有の問題に対処する手法を開発することにより、国際的な科学研究コミュニティにおいて日本語情報が容易に活用されることも期待されます。このようなコンピュータ化学の新たな発展への多大なる貢献に対して、本会はここに吉田賞論文賞として表彰します。
(文責:会長 細矢治夫)