• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2024 Fiscal Year Annual Research Report

日本語化学文章からのNERの検討

Research Project

Project/Area Number 22K12730
Research InstitutionUniversity of Tsukuba

Principal Investigator

中山 伸一  筑波大学, 図書館情報メディア系(名誉教授), 名誉教授 (60155885)

Project Period (FY) 2022-04-01 – 2025-03-31
Keywords化学知識 / 知識抽出 / コーパス作成 / タグ付け作業 / 特許公開広報 / 化学物質名
Outline of Annual Research Achievements

本研究は、化学知識を表現する化学ファクトデータベースのためのデータを論文や特許等の日本語文章から自動抽出する方法について検討することを目的としている。そのためには、日本語の化学文章に含まれる多様なデータにタグ付けした一定規模のコーパスを作成する必要がある。
昨年度までは2016年7月の特許公開公報から化学物質名の入っていそうな約1,200件を抽出し、クラウドワークスを使ってのべ6名のワーカに化学物質名のタグ付け作業を行わせ、抽出した全ての特許公開広報についてコーパス作成を完了した。また、タグ付け作業の精度を検証する作業を容易に行うため、タグ付けした部分の文字列を抽出するシステムを構築した。さらに、ワーカの中から着実に作業を行った1名を選び、他のワーカの行ったものと同じ特許公開広報(1名あたり30件程)にタグ付作業を行わせることにより、人による作業の差異の検証を行うこととし、1名分について実施した。
本年度は昨年度作成したシステムを用いて、作成した全てのコーパスについて検証作業を行った。これにより後タグの付け忘れなどのケアレスミスや、同じ用語に対して異なるタグ付を行うなどの問題が明らかになった。2名のワーカによる同じ特許公開公報のタグ付け作業については、残り4名分について作業を実施した。それをシステムを用いて検証した結果、ワーカによって若干の違いがあるが9割以上の合致が見られた。
なお、本研究開始後に化学知識抽出の可能性をもつ生成AIが出現した。そこで国際会議に出席するなどして、その点について海外の研究者等と意見交換を行なった。その結果、生成AIは本研究の目的と重複する可能性が示唆されたが、本研究で作成した特許公開広報のコーパスは生成AIの学習やその能力の評価に有効であると結論した。

URL: 

Published: 2025-12-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi