日本語化学文章からのNERの検討

Research Project

Project/Area Number	22K12730
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90020:Library and information science, humanistic and social informatics-related
Research Institution	University of Tsukuba
Principal Investigator	中山伸一筑波大学, 図書館情報メディア系(名誉教授), 名誉教授 (60155885)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000) Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywords	化学物質名 / NER / 化学知識 / 日本語 / 特許公報 / タグ付け / コーパス
Outline of Research at the Start	日本語で書かれた化学に関する文章から、化学に関する知識を自動的に取り出す方法論についての検討を行う。その基盤となる技術として、化学物質名などの特定の属性を含む単語を文章中から識別する方法論を確立することを目指す。そのために、化学に関する多数の文章に対して、特定の属性を人手で付与する作業を行い、それを公開してその抽出法を競うワークショップを開催し、複数の方法論を比較検討する。
Outline of Annual Research Achievements	本研究は、化学知識を表現する化学ファクトデータベースのためのデータを論文や特許等の日本語文章から自動抽出する方法について検討することを目的としている。そのためには、日本語の化学文章に含まれる多様なデータにタグ付けを行なったコーパスを作成する必要がある。昨年度は2016年7月の特許公開公報から化学物質名の入っていそうな約1,200件を抽出し、300件ほどについて化学物質名のタグ付け作業を行った。本年度は残り約900件について、昨年度と同様にクラウドワークスを使って5名のワーカにタグ付け作業を行わせ、それを完了した。なお、作業の途中で1名のワーカが辞退したため、再度ワーカを募集し、タグ付け作業を行える能力があることを確認した1名を追加して辞退したワーカの作業を引き継がせた。タグ付け作業の精度は、コーパスを用いた研究の精度に直結するため重要である。そこで、タグ付け作業を検証する方法を検討した。まず、タグ付けした部分の文字列を抽出するシステムを構築し、次年度にそのシステムを用いて作成したコーパスの検証を行うこととした。また、5名のワーカの中から着実に作業を行った１名を選び、他のワーカの行ったものと同じ特許公開広報（1名あたり60件）にタグ付作業を行わせることにより、人による作業の差異の検証を行うこととした。これについては昨年度検討した化学物質名以外の物性と合成法についてのタグ付作業を中止して対応する。本年度は、1名分について実施し、残りについては次年度前半に作業を終える。なお、生成AIの出現により、それを用いた化学知識の抽出の可能性がでてきた。そこで、これまで作成してきた化学物質名のコーパスを用いて、生成AIによる化学物質名抽出の可能性についての検討を次年度に行うこととした。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 日本語の化学文章からNERの方法の妥当性を実証的に検討するためには、正解データとなるコーパス(構造化された情報の種類が付与されたテキストの大規模集合)が必要であり、本研究では化学物質名NERを充実させるため、千件程度の特許公開公報を対象として化学物質名のコーパスを作成することを目指している。昨年度は抽出した約1,200件の特許公開公報のうち、約300件のコーパスを作成したが、本年度は残りのタグ付け作業を行い、約1,200件の特許公開公報からなる化学物質名のコーパスを完成させた。さらに、コーパスの精度を調べるため、タグ付け作業を検証するシステムを構築するともに、ワーカ間の差異を検証するためのタグ付け作業を開始した。
Strategy for Future Research Activity	今後は化学物質名のコーパスの精度を検証するため、本年度構築したタグ付け作業を検証するシステムを用いて作成したコーパスを検証するとともに、一部の特許公開公報について異なるワーカによるタグ付け作業を行わせる。また、生成AIの出現により、化学知識の抽出の可能性がでてきたことから、これまで作成してきた化学物質名のコーパスを用いて、生成AIによる化学物質名抽出の可能性についての検討を行う。