Building structured Knowledge Base for trustable NLP application systems by Resource by Collaborative Construction scheme
Project/Area Number |
20H00617
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥45,240,000 (Direct Cost: ¥34,800,000、Indirect Cost: ¥10,440,000)
Fiscal Year 2022: ¥14,560,000 (Direct Cost: ¥11,200,000、Indirect Cost: ¥3,360,000)
Fiscal Year 2021: ¥14,560,000 (Direct Cost: ¥11,200,000、Indirect Cost: ¥3,360,000)
Fiscal Year 2020: ¥16,120,000 (Direct Cost: ¥12,400,000、Indirect Cost: ¥3,720,000)
|
Keywords | 自然言語処理 / 知識構築 / 情報抽出 / テキスト分類 / 協働によるリソース構築 / 協働による知識構築 / 文書分類 / エンティティーリンキング |
Outline of Research at the Start |
信頼できる人工知能システムは人間のわかる言葉でその判断を説明できるようになることが必要だと考えます。そのために、人工知能が扱える形の世界知識が必要になります。ただし、こういった知識をきちんと構築することは非常に難かしく、現状では、人工知能の応用に耐えうる精度と規模の知識は存在しません。本プロジェクトでは世界中の人が編集し協働で構築されているWikipediaを人工知能が使える形に構造化します。この構造化を人手によって全て実現することはコストや時間的にも難しいので、多数の人工知能のシステムを利用し、その結果を集約することによる構造化知識の構築を目指しています。
|
Outline of Annual Research Achievements |
「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2021年には、2020年に引き続き、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。また、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。 2020年には日本語を対象に、文書分類、属性値抽出、エンティティーリンキングの3つのタスクを一気に解き、構造化知識をEnd-toEndで構築するタスクを実施しました、これらのタスクを通し、技術の進展と問題点の把握などが行われました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでに9のタスクを実施し、目標としている構造化知識構築の3つのタスク全てを実施した。特に日本語において3つのタスクを全て行い、自動的な知識構築技術の確立にめどはついた。ただし、構築技術の確立には3つのタスクの内の属性地抽出技術の精度が他に比べて極端に低く、今後解決していくべき問題点があることを認識している。
|
Strategy for Future Research Activity |
2023年度には、上記に挙げた属性値抽出の精度の問題点を解決するとともに、構築した構造化知識の応用についての研究を進め、信頼できる人工知能の実現に取り組んでいきます。
|
Report
(3 results)
Research Products
(14 results)
-
[Presentation] 森羅タスクと森羅公開データ2023
Author(s)
関根聡 (理研), 中山功太 (理研/筑波大), 隅田飛鳥 (理研), 渋木英潔 (BESNA), 門脇一真 (日本総研), 三浦明波 (アティード), 宇佐美佑 (Usami LLC), 安藤まや (フリー)
Organizer
言語処理学会年次大会
Related Report
-
-
-
-
-
-
-
-
-
-
-
-
-