2022 Fiscal Year Annual Research Report
論文内の記述と各種科学技術DBを連携させる特定研究グループ向け論文DBの研究
Project/Area Number |
21K19814
|
Research Institution | Hokkaido University |
Principal Investigator |
吉岡 真治 北海道大学, 情報科学研究院, 教授 (40290879)
|
Co-Investigator(Kenkyū-buntansha) |
原 真二郎 北海道大学, 量子集積エレクトロニクス研究センター, 准教授 (50374616)
鈴木 晃 国立研究開発法人物質・材料研究機構, 統合型材料開発・情報基盤部門, NIMS特別研究員 (50799723)
長田 裕也 北海道大学, 化学反応創成研究拠点, 特任准教授 (60512762)
|
Project Period (FY) |
2021-07-09 – 2023-03-31
|
Keywords | 論文データベース / テキストマイニング / 科学技術データベース |
Outline of Annual Research Achievements |
本研究では、特定の分野に興味を持つ研究者が収集する関係分野の論文を対象としたデータベースに基づいて、専門用語抽出などを行うことにより、用語間の共起関係に基づく分析や、時系列を考慮した研究動向分析を行うデータベースを基礎として、化学物質データベースなどのさまざまな科学技術データベースと連携させることにより、分野の研究者の研究活動を支援するシステムの構築を目指している。 本研究では、これまでに作成した論文・図表データベースを様々な科学技術データベースと連携させるための手法について検討するための具体例として、特に、化学反応情報に関する情報抽出の研究を進めるとともに、化学物質データベースとの連携について検討を行った。化学反応情報のデータベースとしては、Reaxysなどの商用データベースが提供されているが、これらのデータベースでは、全体の反応を整理した化学反応式のレベルの情報と、収率などのパラメータの情報については提供されているが、その反応を再現するための詳細な情報は記載されていない。我々は、特許文書からの化学反応情報を抽出することを目指した研究であるChEMUというタスクに参加し、大規模言語モデルに基づくシステムを構築することで、Reaxysに記載しているレベルの情報が精度や再現率も高く抽出できることを確認した。また、この結果を拡張する形で、反応を再現するレベルの詳細度で情報抽出を行うためのコーパス作成に着手している。 一方、論文からこのような化学反応情報をそのままメタデータとして抽出した場合には、化学反応における化学物質名の表記の揺れなどが大きく、提案しているデータベースの分析機能をうまく活用できないことも判明した。このような表記の揺れを化学物質データベースを用いた正規化などを行うことにより、このような問題の影響を低減できることを確認した。
|