研究課題/領域番号 |
20H00617
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 知識構築 / 自然言語処理 / 協働による知識構築 / 文書分類 / 情報抽出 / エンティティーリンキング |
研究実績の概要 |
「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2021年には、2020年に引き続き、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。また、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。 2020年には日本語を対象に、文書分類、属性値抽出、エンティティーリンキングの3つのタスクを一気に解き、構造化知識をEnd-toEndで構築するタスクを実施しました、これらのタスクを通し、技術の進展と問題点の把握などが行われました。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまでに9のタスクを実施し、目標としている構造化知識構築の3つのタスク全てを実施した。特に日本語において3つのタスクを全て行い、自動的な知識構築技術の確立にめどはついた。ただし、構築技術の確立には3つのタスクの内の属性地抽出技術の精度が他に比べて極端に低く、今後解決していくべき問題点があることを認識している。
|
今後の研究の推進方策 |
2023年度には、上記に挙げた属性値抽出の精度の問題点を解決するとともに、構築した構造化知識の応用についての研究を進め、信頼できる人工知能の実現に取り組んでいきます。
|