2021 Fiscal Year Annual Research Report
Building structured Knowledge Base for trustable NLP application systems by Resource by Collaborative Construction scheme
Project/Area Number |
20H00617
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 知識構築 / 自然言語処理 / 協働による知識構築 / 文書分類 / 情報抽出 / エンティティーリンキング |
Outline of Annual Research Achievements |
「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2021年には、2020年に引き続き、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。また、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。 2020年には日本語を対象に、文書分類、属性値抽出、エンティティーリンキングの3つのタスクを一気に解き、構造化知識をEnd-toEndで構築するタスクを実施しました、これらのタスクを通し、技術の進展と問題点の把握などが行われました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでに9のタスクを実施し、目標としている構造化知識構築の3つのタスク全てを実施した。特に日本語において3つのタスクを全て行い、自動的な知識構築技術の確立にめどはついた。ただし、構築技術の確立には3つのタスクの内の属性地抽出技術の精度が他に比べて極端に低く、今後解決していくべき問題点があることを認識している。
|
Strategy for Future Research Activity |
2023年度には、上記に挙げた属性値抽出の精度の問題点を解決するとともに、構築した構造化知識の応用についての研究を進め、信頼できる人工知能の実現に取り組んでいきます。
|
Research Products
(5 results)
-
[Presentation] 森羅タスクと森羅公開データ2023
Author(s)
関根聡 (理研), 中山功太 (理研/筑波大), 隅田飛鳥 (理研), 渋木英潔 (BESNA), 門脇一真 (日本総研), 三浦明波 (アティード), 宇佐美佑 (Usami LLC), 安藤まや (フリー)
Organizer
言語処理学会年次大会
-
-
-
-