• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

論文からの化学反応プロセス情報の自動抽出とその活用

研究課題

研究課題/領域番号 23K18500
研究種目

挑戦的研究(萌芽)

配分区分基金
審査区分 中区分62:応用情報学およびその関連分野
研究機関北海道大学

研究代表者

吉岡 真治  北海道大学, 情報科学研究院, 教授 (40290879)

研究分担者 原 真二郎  北海道大学, 量子集積エレクトロニクス研究センター, 准教授 (50374616)
長田 裕也  北海道大学, 化学反応創成研究拠点, 特任准教授 (60512762)
研究期間 (年度) 2023-06-30 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2024年度: 3,250千円 (直接経費: 2,500千円、間接経費: 750千円)
2023年度: 3,250千円 (直接経費: 2,500千円、間接経費: 750千円)
キーワード化学反応プロセス / 情報抽出 / 自然言語処理
研究開始時の研究の概要

本研究では、論文で報告される化学反応プロセスの手順を説明した文から、その詳細な実験手順を抽出する方法を提案する。具体的には、文中の重要な手順などにタグ付けしたテキスト(コーパス)を作成し、このコーパスを利用した機械学習による化学反応プロセスの情報抽出を行うシステムを作成する。また、作成したシステムを用いて、化学物質の混ぜ合わせ、加熱などを行うことができる自動有機合成ロボットを制御するプログラムを半自動合成できるシステムを開発することで、論文に書いてある実験を容易に追実験できるような環境を構築する。さらに、これらの結果を用いた化学反応データベースの構築などの応用についても検討する。

研究実績の概要

本研究では、論文で報告される化学反応プロセスの手順を説明した文から、その詳細な実験手順を抽出する方法の提案をその目的としている。そのための手順として、文中の化学反応プロセスの手順などにタグ付けしたテキスト(コーパス)であるOSPAR(意味役割付き有機化学合成手順 (Organic Synthesis Procedures with Argument Roles ))コーパスを作成し、このコーパスを利用した機械学習による化学反応プロセスの情報抽出を行うシステムを作成した。本コーパスを構築するにあたり、これまでの化学反応データベースに収録するレベルのデータの抽出を目標としたコーパスでは適切に表現されていなかった詳細な手順に関する情報を表現するために、有機化学合成手順の論文における動詞の利用方法を考慮した専門分野向けの動詞の意味役割を定義した。さらに、再現性が高く信頼性が高い化学反応についての報告を行う論文誌である Organic Synthesesにおける化学反応プロセスを報告している文章を対象に、この動詞の意味役割を用いたタグ付けを行った。また、このコーパスを用いて、化学反応手順の自動抽出システムの構築が可能であることを確認した。
今後は、作成したシステムを用いて、化学物の混ぜ合わせ、加熱などを行うことができる自動有機合成ロボットを制御するプログラムを半自動合成できるシステムを開発することで、論文に書いてある実験を容易に追実験できるような環境を構築することを目指している。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本研究では、これまでに行われた特許から化学反応データベースに収録するレベルのデータの抽出を目標とした化学反応情報抽出では表現できなかった詳細な手順が表現可能である。例えば、AとB を使って、Cを合成するという記述に対し、従来の化学反応抽出では、A+B→Cの情報を抽出していたのに対し、本研究では、実際の反応結果に大きな影響を与えるAにBを加えるのか、BをA に加えるのかの違いが表現可能となっている。また、本コーパスを用いた機械学習により、論文中の化学反応プロセスを抽出するシステムが構築できることを確認した。このことにより、2年目に計画している自動有機合成ロボットにおける合成プログラムの半自動構築を行うための準備が整った。

今後の研究の推進方策

今年度は、初年度に作成したコーパス並びにそのコーパスに基づいた論文からの化学反応プロセス情報の自動抽出システムを活用した自動有機合成ロボットにおける合成プログラムの半自動合成を行うシステムを構築する。論文からの自動抽出システムは、かなり精度・再現率高く情報抽出をできることを確認しているが、完全な情報を抽出することは難しいことも確認している。一方で、論文中の文書に手順の情報をあわせて可視化するインターフェースを提供することで抽出結果を確認するとともに、抽出漏れなどの気づきを与えることが可能であることを確認している。構築を予定している半自動合成システムでは、ユーザが論文の本文を確認するとともに、反応容器のサイズを考慮したスケールの変更を行うことを支援するインターフェースを提供することで、より適切なプログラムを作成できる枠組みの構築を目指す。

報告書

(1件)
  • 2023 実施状況報告書
  • 研究成果

    (2件)

すべて 2024 2023

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (1件)

  • [雑誌論文] OSPAR: A Corpus for Extraction of Organic Synthesis Procedures with Argument Roles2023

    • 著者名/発表者名
      Machi Kojiro、Akiyama Seiji、Nagata Yuuya、Yoshioka Masaharu
    • 雑誌名

      Journal of Chemical Information and Modeling

      巻: 63 号: 21 ページ: 6619-6628

    • DOI

      10.1021/acs.jcim.3c01449

    • 関連する報告書
      2023 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] 特定の専門分野を対象とした意味役割付きデータ作成手法~有機合成手順の抽出を例として~2024

    • 著者名/発表者名
      町光二郎, 秋山世治, 長田裕也, 吉岡真治
    • 学会等名
      言語処理学会第30回年次大会発表論文集
    • 関連する報告書
      2023 実施状況報告書

URL: 

公開日: 2023-07-04   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi