Project/Area Number |
23K18500
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 62:Applied informatics and related fields
|
Research Institution | Hokkaido University |
Principal Investigator |
吉岡 真治 北海道大学, 情報科学研究院, 教授 (40290879)
|
Co-Investigator(Kenkyū-buntansha) |
原 真二郎 北海道大学, 量子集積エレクトロニクス研究センター, 准教授 (50374616)
長田 裕也 北海道大学, 化学反応創成研究拠点, 特任准教授 (60512762)
|
Project Period (FY) |
2023-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2024: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2023: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
|
Keywords | 化学反応プロセス / 情報抽出 / 自然言語処理 |
Outline of Research at the Start |
本研究では、論文で報告される化学反応プロセスの手順を説明した文から、その詳細な実験手順を抽出する方法を提案する。具体的には、文中の重要な手順などにタグ付けしたテキスト(コーパス)を作成し、このコーパスを利用した機械学習による化学反応プロセスの情報抽出を行うシステムを作成する。また、作成したシステムを用いて、化学物質の混ぜ合わせ、加熱などを行うことができる自動有機合成ロボットを制御するプログラムを半自動合成できるシステムを開発することで、論文に書いてある実験を容易に追実験できるような環境を構築する。さらに、これらの結果を用いた化学反応データベースの構築などの応用についても検討する。
|
Outline of Annual Research Achievements |
本研究では、論文で報告される化学反応プロセスの手順を説明した文から、その詳細な実験手順を抽出する方法の提案をその目的としている。そのための手順として、文中の化学反応プロセスの手順などにタグ付けしたテキスト(コーパス)であるOSPAR(意味役割付き有機化学合成手順 (Organic Synthesis Procedures with Argument Roles ))コーパスを作成し、このコーパスを利用した機械学習による化学反応プロセスの情報抽出を行うシステムを作成した。本コーパスを構築するにあたり、これまでの化学反応データベースに収録するレベルのデータの抽出を目標としたコーパスでは適切に表現されていなかった詳細な手順に関する情報を表現するために、有機化学合成手順の論文における動詞の利用方法を考慮した専門分野向けの動詞の意味役割を定義した。さらに、再現性が高く信頼性が高い化学反応についての報告を行う論文誌である Organic Synthesesにおける化学反応プロセスを報告している文章を対象に、この動詞の意味役割を用いたタグ付けを行った。また、このコーパスを用いて、化学反応手順の自動抽出システムの構築が可能であることを確認した。 今後は、作成したシステムを用いて、化学物の混ぜ合わせ、加熱などを行うことができる自動有機合成ロボットを制御するプログラムを半自動合成できるシステムを開発することで、論文に書いてある実験を容易に追実験できるような環境を構築することを目指している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、これまでに行われた特許から化学反応データベースに収録するレベルのデータの抽出を目標とした化学反応情報抽出では表現できなかった詳細な手順が表現可能である。例えば、AとB を使って、Cを合成するという記述に対し、従来の化学反応抽出では、A+B→Cの情報を抽出していたのに対し、本研究では、実際の反応結果に大きな影響を与えるAにBを加えるのか、BをA に加えるのかの違いが表現可能となっている。また、本コーパスを用いた機械学習により、論文中の化学反応プロセスを抽出するシステムが構築できることを確認した。このことにより、2年目に計画している自動有機合成ロボットにおける合成プログラムの半自動構築を行うための準備が整った。
|
Strategy for Future Research Activity |
今年度は、初年度に作成したコーパス並びにそのコーパスに基づいた論文からの化学反応プロセス情報の自動抽出システムを活用した自動有機合成ロボットにおける合成プログラムの半自動合成を行うシステムを構築する。論文からの自動抽出システムは、かなり精度・再現率高く情報抽出をできることを確認しているが、完全な情報を抽出することは難しいことも確認している。一方で、論文中の文書に手順の情報をあわせて可視化するインターフェースを提供することで抽出結果を確認するとともに、抽出漏れなどの気づきを与えることが可能であることを確認している。構築を予定している半自動合成システムでは、ユーザが論文の本文を確認するとともに、反応容器のサイズを考慮したスケールの変更を行うことを支援するインターフェースを提供することで、より適切なプログラムを作成できる枠組みの構築を目指す。
|