Project/Area Number |
22K12730
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
中山 伸一 筑波大学, 図書館情報メディア系(名誉教授), 名誉教授 (60155885)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 化学物質名 / NER / 化学知識 / 日本語 / 特許公報 / タグ付け / コーパス |
Outline of Research at the Start |
日本語で書かれた化学に関する文章から、化学に関する知識を自動的に取り出す方法論についての検討を行う。その基盤となる技術として、化学物質名などの特定の属性を含む単語を文章中から識別する方法論を確立することを目指す。そのために、化学に関する多数の文章に対して、特定の属性を人手で付与する作業を行い、それを公開してその抽出法を競うワークショップを開催し、複数の方法論を比較検討する。
|
Outline of Annual Research Achievements |
本研究は、化学知識を表現する化学ファクトデータベースのためのデータを論文や特許等の日本語文章から自動抽出する方法について検討することを目的としている。そのためには、日本語の化学文章に含まれる多様なデータにタグ付けを行なったコーパスを作成する必要がある。 本年度は、日本語の化学文章のコーパス作成の第一段階として、千件ほどの公開特許公報に出現する化学物質名についてタグ付け作業を開始した。まず、これまでの研究でも利用していた2016年7月の特許公開公報(約12,000件)について、「C化学;冶金」の分類が付与されたものを選択し、文章の文字数が膨大なものを除いて約1,200件を抽出した。 この公開特許公報を対象に、化学物質名の部分にタグ付けする作業をクラウドワークスを使って実施している。作業者は化学を専攻したワーカ約20名に作業内容を含む依頼文を送り、返事のあった5名について一件の特許公開公報を送付してタグ付けを行なってもらい、タグ付け作業を行える能力があることを確認した。 タグ付け作業の進捗をコントロールできるよう、全体を60件ほどからなる20のブロックに分け、今年度は5ブロックの作業を行わせた。次年度の前半あたりにこの作業は完成する予定である。これまで、特許公開公報に化学物質名のタグ付けを行なったコーパスは、50件程度からなるものであり、1,000件の特許公開広報からなるコーパスが完成すると化学物質名のNER研究において非常に有用となる。 上記と並行して、化学物質名以外についてどのようなファクトデータが抽出できるかの検討を行なった。その結果、物性と合成法を化学物質名と組み合わせて抽出することを考えた。これらの実際のタグ付けについては、次年度後半に実施する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本語の化学テキストを知識メタデータの視点で検討し、NERの対象とする属性(化学物質名、物性、合成法)を決定できた。 日本語の化学文章から複数の属性についてのNERの方法の妥当性を実証的に検討するためには、正解デ ータとなるコーパス(構造化された情報の種類が付与されたテキストの大規模集合)が必要であり、本研究では化学物質名NERを充実させるため、化学物質名については千件程度の特許公開公報を対象として作成することを目指している。今年度は約1,200件の特許公開公報の抽出作業を完成させ、タグ付け作業についても5名のタグ付け作業を行うことができる能力を持つクラウドワーカーを確保し、順調に作業環境を立ち上げることができた。
|
Strategy for Future Research Activity |
今後は予定通り、化学物質名のタグ付けを完成させ、それに物性、合成法のタグを加える作業を行う。 なお、化学物質名のタグ付け作業については、複数のワーカーで若干のブレが認められた。タグ付けの精度を高めるには、当初予定していなかったが、その統合を行えるプログラムを開発する必要があると考える。
|