2022 Fiscal Year Research-status Report
Project/Area Number |
22K12730
|
Research Institution | University of Tsukuba |
Principal Investigator |
中山 伸一 筑波大学, 図書館情報メディア系(名誉教授), 名誉教授 (60155885)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 化学物質名 / NER / 化学知識 / 日本語 / 特許公報 / タグ付け / コーパス |
Outline of Annual Research Achievements |
本研究は、化学知識を表現する化学ファクトデータベースのためのデータを論文や特許等の日本語文章から自動抽出する方法について検討することを目的としている。そのためには、日本語の化学文章に含まれる多様なデータにタグ付けを行なったコーパスを作成する必要がある。 本年度は、日本語の化学文章のコーパス作成の第一段階として、千件ほどの公開特許公報に出現する化学物質名についてタグ付け作業を開始した。まず、これまでの研究でも利用していた2016年7月の特許公開公報(約12,000件)について、「C化学;冶金」の分類が付与されたものを選択し、文章の文字数が膨大なものを除いて約1,200件を抽出した。 この公開特許公報を対象に、化学物質名の部分にタグ付けする作業をクラウドワークスを使って実施している。作業者は化学を専攻したワーカ約20名に作業内容を含む依頼文を送り、返事のあった5名について一件の特許公開公報を送付してタグ付けを行なってもらい、タグ付け作業を行える能力があることを確認した。 タグ付け作業の進捗をコントロールできるよう、全体を60件ほどからなる20のブロックに分け、今年度は5ブロックの作業を行わせた。次年度の前半あたりにこの作業は完成する予定である。これまで、特許公開公報に化学物質名のタグ付けを行なったコーパスは、50件程度からなるものであり、1,000件の特許公開広報からなるコーパスが完成すると化学物質名のNER研究において非常に有用となる。 上記と並行して、化学物質名以外についてどのようなファクトデータが抽出できるかの検討を行なった。その結果、物性と合成法を化学物質名と組み合わせて抽出することを考えた。これらの実際のタグ付けについては、次年度後半に実施する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本語の化学テキストを知識メタデータの視点で検討し、NERの対象とする属性(化学物質名、物性、合成法)を決定できた。 日本語の化学文章から複数の属性についてのNERの方法の妥当性を実証的に検討するためには、正解デ ータとなるコーパス(構造化された情報の種類が付与されたテキストの大規模集合)が必要であり、本研究では化学物質名NERを充実させるため、化学物質名については千件程度の特許公開公報を対象として作成することを目指している。今年度は約1,200件の特許公開公報の抽出作業を完成させ、タグ付け作業についても5名のタグ付け作業を行うことができる能力を持つクラウドワーカーを確保し、順調に作業環境を立ち上げることができた。
|
Strategy for Future Research Activity |
今後は予定通り、化学物質名のタグ付けを完成させ、それに物性、合成法のタグを加える作業を行う。 なお、化学物質名のタグ付け作業については、複数のワーカーで若干のブレが認められた。タグ付けの精度を高めるには、当初予定していなかったが、その統合を行えるプログラムを開発する必要があると考える。
|
Causes of Carryover |
次年度使用額が生じたのは、コーパスを作成する特許公開公報の抽出に予想以上の時間がかかったためタグ付け作業の開始が遅れたことと、タグ付け作業を行えるクラウドワーカーがなかなか集められなかったことが理由である。 次年度使用額を使って、予定通りタグ付け作業を完了させる。 なお、クラウドワークスはその他として支出されるため、当初予定していた人件費・謝金は全てその他に合算される。
|