研究課題/領域番号 |
20H00617
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
45,240千円 (直接経費: 34,800千円、間接経費: 10,440千円)
2022年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円)
2021年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円)
2020年度: 16,120千円 (直接経費: 12,400千円、間接経費: 3,720千円)
|
キーワード | 自然言語処理 / 知識構築 / 情報抽出 / テキスト分類 / 協働によるリソース構築 / 協働による知識構築 / 文書分類 / エンティティーリンキング |
研究開始時の研究の概要 |
信頼できる人工知能システムは人間のわかる言葉でその判断を説明できるようになることが必要だと考えます。そのために、人工知能が扱える形の世界知識が必要になります。ただし、こういった知識をきちんと構築することは非常に難かしく、現状では、人工知能の応用に耐えうる精度と規模の知識は存在しません。本プロジェクトでは世界中の人が編集し協働で構築されているWikipediaを人工知能が使える形に構造化します。この構造化を人手によって全て実現することはコストや時間的にも難しいので、多数の人工知能のシステムを利用し、その結果を集約することによる構造化知識の構築を目指しています。
|
研究実績の概要 |
「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2021年には、2020年に引き続き、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。また、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。 2020年には日本語を対象に、文書分類、属性値抽出、エンティティーリンキングの3つのタスクを一気に解き、構造化知識をEnd-toEndで構築するタスクを実施しました、これらのタスクを通し、技術の進展と問題点の把握などが行われました。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまでに9のタスクを実施し、目標としている構造化知識構築の3つのタスク全てを実施した。特に日本語において3つのタスクを全て行い、自動的な知識構築技術の確立にめどはついた。ただし、構築技術の確立には3つのタスクの内の属性地抽出技術の精度が他に比べて極端に低く、今後解決していくべき問題点があることを認識している。
|
今後の研究の推進方策 |
2023年度には、上記に挙げた属性値抽出の精度の問題点を解決するとともに、構築した構造化知識の応用についての研究を進め、信頼できる人工知能の実現に取り組んでいきます。
|