研究課題/領域番号 |
22K12730
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 筑波大学 |
研究代表者 |
中山 伸一 筑波大学, 図書館情報メディア系(名誉教授), 名誉教授 (60155885)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 化学物質名 / NER / 化学知識 / 日本語 / 特許公報 / タグ付け / コーパス |
研究開始時の研究の概要 |
日本語で書かれた化学に関する文章から、化学に関する知識を自動的に取り出す方法論についての検討を行う。その基盤となる技術として、化学物質名などの特定の属性を含む単語を文章中から識別する方法論を確立することを目指す。そのために、化学に関する多数の文章に対して、特定の属性を人手で付与する作業を行い、それを公開してその抽出法を競うワークショップを開催し、複数の方法論を比較検討する。
|
研究実績の概要 |
本研究は、化学知識を表現する化学ファクトデータベースのためのデータを論文や特許等の日本語文章から自動抽出する方法について検討することを目的として いる。そのためには、日本語の化学文章に含まれる多様なデータにタグ付けを行なったコーパスを作成する必要がある。 昨年度は2016年7月の特許公開公報から化学物質名の入っていそうな約1,200件を抽出し、300件ほどについて化学物質名のタグ付け作業を行った。本年度は残り約900件について、昨年度と同様にクラウドワークスを使って5名のワーカにタグ付け作業を行わせ、それを完了した。なお、作業の途中で1名のワーカが辞退したため、再度ワーカを募集し、タグ付け作業を行える能力があることを確認した1名を追加して辞退したワーカの作業を引き継がせた。 タグ付け作業の精度は、コーパスを用いた研究の精度に直結するため重要である。そこで、タグ付け作業を検証する方法を検討した。まず、タグ付けした部分の文字列を抽出するシステムを構築し、次年度にそのシステムを用いて作成したコーパスの検証を行うこととした。また、5名のワーカの中から着実に作業を行った1名を選び、他のワーカの行ったものと同じ特許公開広報(1名あたり60件)にタグ付作業を行わせることにより、人による作業の差異の検証を行うこととした。これについては昨年度検討した化学物質名以外の物性と合成法についてのタグ付作業を中止して対応する。本年度は、1名分について実施し、残りについては次年度前半に作業を終える。 なお、生成AIの出現により、それを用いた化学知識の抽出の可能性がでてきた。そこで、これまで作成してきた化学物質名のコーパスを用いて、生成AIによる化学物質名抽出の可能性についての検討を次年度に行うこととした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
日本語の化学文章からNERの方法の妥当性を実証的に検討するためには、正解データとなるコーパス(構造化された情報の種類が付与されたテキストの大規模集合)が必要であり、本研究では化学物質名NERを充実させるため、千件程度の特許公開公報を対象として化学物質名のコーパスを作成することを目指している。昨年度は抽出した約1,200件の特許公開公報のうち、約300件のコーパスを作成したが、本年度は残りのタグ付け作業を行い、約1,200件の特許公開公報からなる化学物質名のコーパスを完成させた。 さらに、コーパスの精度を調べるため、タグ付け作業を検証するシステムを構築するともに、ワーカ間の差異を検証するためのタグ付け作業を開始した。
|
今後の研究の推進方策 |
今後は化学物質名のコーパスの精度を検証するため、本年度構築したタグ付け作業を検証するシステムを用いて作成したコーパスを検証するとともに、一部の特許公開公報について異なるワーカによるタグ付け作業を行わせる。 また、生成AIの出現により、化学知識の抽出の可能性がでてきたことから、これまで作成してきた化学物質名のコーパスを用いて、生成AIによる化学物質名抽出の可能性についての検討を行う。
|