• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

日本語化学文章からのNERの検討

Research Project

Project/Area Number 22K12730
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 90020:Library and information science, humanistic and social informatics-related
Research InstitutionUniversity of Tsukuba

Principal Investigator

中山 伸一  筑波大学, 図書館情報メディア系(名誉教授), 名誉教授 (60155885)

Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Completed (Fiscal Year 2024)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywords化学知識 / 知識抽出 / コーパス作成 / タグ付け作業 / 特許公開広報 / 化学物質名 / NER / 日本語 / 特許公報 / タグ付け / コーパス
Outline of Research at the Start

日本語で書かれた化学に関する文章から、化学に関する知識を自動的に取り出す方法論についての検討を行う。その基盤となる技術として、化学物質名などの特定の属性を含む単語を文章中から識別する方法論を確立することを目指す。そのために、化学に関する多数の文章に対して、特定の属性を人手で付与する作業を行い、それを公開してその抽出法を競うワークショップを開催し、複数の方法論を比較検討する。

Outline of Annual Research Achievements

本研究は、化学知識を表現する化学ファクトデータベースのためのデータを論文や特許等の日本語文章から自動抽出する方法について検討することを目的としている。そのためには、日本語の化学文章に含まれる多様なデータにタグ付けした一定規模のコーパスを作成する必要がある。
昨年度までは2016年7月の特許公開公報から化学物質名の入っていそうな約1,200件を抽出し、クラウドワークスを使ってのべ6名のワーカに化学物質名のタグ付け作業を行わせ、抽出した全ての特許公開広報についてコーパス作成を完了した。また、タグ付け作業の精度を検証する作業を容易に行うため、タグ付けした部分の文字列を抽出するシステムを構築した。さらに、ワーカの中から着実に作業を行った1名を選び、他のワーカの行ったものと同じ特許公開広報(1名あたり30件程)にタグ付作業を行わせることにより、人による作業の差異の検証を行うこととし、1名分について実施した。
本年度は昨年度作成したシステムを用いて、作成した全てのコーパスについて検証作業を行った。これにより後タグの付け忘れなどのケアレスミスや、同じ用語に対して異なるタグ付を行うなどの問題が明らかになった。2名のワーカによる同じ特許公開公報のタグ付け作業については、残り4名分について作業を実施した。それをシステムを用いて検証した結果、ワーカによって若干の違いがあるが9割以上の合致が見られた。
なお、本研究開始後に化学知識抽出の可能性をもつ生成AIが出現した。そこで国際会議に出席するなどして、その点について海外の研究者等と意見交換を行なった。その結果、生成AIは本研究の目的と重複する可能性が示唆されたが、本研究で作成した特許公開広報のコーパスは生成AIの学習やその能力の評価に有効であると結論した。

Report

(3 results)
  • 2024 Annual Research Report
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (1 results)

All 2023

All Presentation (1 results) (of which Invited: 1 results)

  • [Presentation] 特許公開公報文章からの化学物質名の抽出2023

    • Author(s)
      田中 るみ子、中山 伸一
    • Organizer
      日本コンピュータ化学会 2023年春季年会プログラム
    • Related Report
      2023 Research-status Report
    • Invited

URL: 

Published: 2022-04-19   Modified: 2025-12-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi