研究課題/領域番号 |
20H00617
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
45,240千円 (直接経費: 34,800千円、間接経費: 10,440千円)
2022年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円)
2021年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円)
2020年度: 16,120千円 (直接経費: 12,400千円、間接経費: 3,720千円)
|
キーワード | 知識グラフ / 自然言語処理 / 情報抽出 / 固有表現 / 属性性抽出 / テキスト分類 / エンティティーリンキング / 知識構築 / 協働による知識構築 / 文書分類 / 協働によるリソース構築 |
研究開始時の研究の概要 |
信頼できる人工知能システムは人間のわかる言葉でその判断を説明できるようになることが必要だと考えます。そのために、人工知能が扱える形の世界知識が必要になります。ただし、こういった知識をきちんと構築することは非常に難かしく、現状では、人工知能の応用に耐えうる精度と規模の知識は存在しません。本プロジェクトでは世界中の人が編集し協働で構築されているWikipediaを人工知能が使える形に構造化します。この構造化を人手によって全て実現することはコストや時間的にも難しいので、多数の人工知能のシステムを利用し、その結果を集約することによる構造化知識の構築を目指しています。
|
研究成果の概要 |
森羅プロジェクトの主な成果物は以下の通りであり,森羅プロジェクトホームページにて公開している. 1)構築してきたWikipedia構造化データ.日本語Wikipediaの全項目を対象にしたカテゴリー分類データ,全カテゴリーのサンプルを対象にした属性値抽出データ,エンティティーリンキングデータ,および30言語のカテゴリー分類データを含む森羅データ 2)カテゴリー分類,属性値抽出,エンティティーリンキングの各タスクを半自動的に実施する森羅ベースラインシステム 3)森羅データを利用するアプリケーションから,上記の森羅データへアクセスするためのアクセスAPI
|
研究成果の学術的意義や社会的意義 |
森羅データを含む、本プロジェクトの成果は、自然言語処理において必要不可欠なものであり、生成AIにおけるハルシネーション対応や信頼できる人工知能のための説明できる自然言語処理コンポーネントの中心的なデータとして利用できる。このようなデータは世界的にもユニークな内容であり、このデータの応用は社会において広く活用され、信頼できる人工知能の普及に役立つ。
|