信頼される自然言語処理応用システムのための構造化世界知識の協働的貢献による構築

研究課題

研究課題/領域番号	20H00617
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分61:人間情報学およびその関連分野
研究機関	国立研究開発法人理化学研究所
研究代表者	関根聡国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	45,240千円 (直接経費: 34,800千円、間接経費: 10,440千円) 2022年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円) 2021年度: 14,560千円 (直接経費: 11,200千円、間接経費: 3,360千円) 2020年度: 16,120千円 (直接経費: 12,400千円、間接経費: 3,720千円)
キーワード	知識グラフ / 自然言語処理 / 情報抽出 / 固有表現 / 属性性抽出 / テキスト分類 / エンティティーリンキング / 知識構築 / 協働による知識構築 / 文書分類 / 協働によるリソース構築
研究開始時の研究の概要	信頼できる人工知能システムは人間のわかる言葉でその判断を説明できるようになることが必要だと考えます。そのために、人工知能が扱える形の世界知識が必要になります。ただし、こういった知識をきちんと構築することは非常に難かしく、現状では、人工知能の応用に耐えうる精度と規模の知識は存在しません。本プロジェクトでは世界中の人が編集し協働で構築されているWikipediaを人工知能が使える形に構造化します。この構造化を人手によって全て実現することはコストや時間的にも難しいので、多数の人工知能のシステムを利用し、その結果を集約することによる構造化知識の構築を目指しています。
研究成果の概要	森羅プロジェクトの主な成果物は以下の通りであり，森羅プロジェクトホームページにて公開している. １）構築してきたWikipedia構造化データ．日本語Wikipediaの全項目を対象にしたカテゴリー分類データ，全カテゴリーのサンプルを対象にした属性値抽出データ，エンティティーリンキングデータ，および30言語のカテゴリー分類データを含む森羅データ　２）カテゴリー分類，属性値抽出，エンティティーリンキングの各タスクを半自動的に実施する森羅ベースラインシステム　３）森羅データを利用するアプリケーションから，上記の森羅データへアクセスするためのアクセスAPI
研究成果の学術的意義や社会的意義	森羅データを含む、本プロジェクトの成果は、自然言語処理において必要不可欠なものであり、生成AIにおけるハルシネーション対応や信頼できる人工知能のための説明できる自然言語処理コンポーネントの中心的なデータとして利用できる。このようなデータは世界的にもユニークな内容であり、このデータの応用は社会において広く活用され、信頼できる人工知能の普及に役立つ。

報告書

(5件)

研究成果
(22件)

すべて 2024 2023 2022 2021 2020

すべて学会発表 (22件) (うち国際学会 10件)

[学会発表] 森羅プロジェクト2024
- 著者名/発表者名
  関根聡　宇佐美佑　門脇一真　三浦明波　中山功太　安藤まや
- 学会等名
  言語処理学会
- 関連する報告書
  2022 実績報告書
[学会発表] JEMHopQA:日本語マルチホップQAデータセットの改良2024
- 著者名/発表者名
  石井愛 , 井之上直也, 鈴木久美, 関根聡
- 学会等名
  言語処理学会
- 関連する報告書
  2022 実績報告書
[学会発表] マルチホップQAの根拠情報を用いたLLMの``偽''正解の分析2024
- 著者名/発表者名
  石井愛 , 井之上直也, 鈴木久美, 関根聡
- 学会等名
  言語処理学会
- 関連する報告書
  2022 実績報告書
[学会発表] JEMHopQA: Dataset for Japanese Explainable Multi-Hop Question Answering2024
- 著者名/発表者名
  Ai Ishii, Naoya Inoue, Hisami Suzuki and Satoshi Sekine
- 学会等名
  LREC-COLING 2024
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 森羅タスクと森羅公開データ2023
- 著者名/発表者名
  関根聡, 中山功太, 隅田飛鳥, 渋木英潔, 門脇一真, 三浦明波, 宇佐美佑, 安藤まや
- 学会等名
  言語処理学会
- 関連する報告書
  2022 実績報告書
[学会発表] 森羅タスクと森羅公開データ2023
- 著者名/発表者名
  関根聡 (理研), 中山功太 (理研/筑波大), 隅田飛鳥 (理研), 渋木英潔 (BESNA), 門脇一真 (日本総研), 三浦明波 (アティード), 宇佐美佑 (Usami LLC), 安藤まや (フリー)
- 学会等名
  言語処理学会年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022
- 著者名/発表者名
  関根聡, 中山功太, 野本昌子, 安藤まや, 隅田飛鳥, 松田耕史
- 学会等名
  言語処理学会
- 関連する報告書
  2022 実績報告書
[学会発表] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022
- 著者名/発表者名
  野本昌子, 宇佐美佑, 安藤まや, 中山功太, 関根聡
- 学会等名
  言語処理学会
- 関連する報告書
  2022 実績報告書
[学会発表] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022
- 著者名/発表者名
  Satoshi Sekine, Kouta Nakayama, Masako Nomoto, Maya Ando, Asuka Sumida, Koji Matsuda
- 学会等名
  COLING 2022
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022
- 著者名/発表者名
  1.Satoshi Sekine, Kouta Nakayama, Masako Nomoto, Maya Ando, Asuka Sumida, Koji Matsuda
- 学会等名
  COLING 2022
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022
- 著者名/発表者名
  関根聡, 中山功太, 野本昌子 (理研), 安藤まや (フリー), 隅田飛鳥, 松田耕史 (理研)
- 学会等名
  言語処理学会年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022
- 著者名/発表者名
  野本昌子, 宇佐美佑, 安藤まや, 中山功太, 関根聡
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022
- 著者名/発表者名
  関根聡, 中山功太, 野本昌子, 安藤まや, 隅田飛鳥, 松田耕史
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme”2021
- 著者名/発表者名
  2.Satoshi Sekine, Kouta Nakayama, Koji Matsuda, Asuka Sumida, Maya Ando, Yu Usami, Masako Nomoto
- 学会等名
  Automated Knowledge Base Construction
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Co-Teaching Student-Model through Submission Results of Shared Task2021
- 著者名/発表者名
  3.Kouta Nakayama, Yukino Baba, Satoshi Sekine
- 学会等名
  EMNLP 2021
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] SHINRA2020-ML:30 言語の Wikipedia ページの分類2021
- 著者名/発表者名
  関根聡, 野本昌子, 中山功太, 隅田飛鳥, 松田耕史, 安藤まや
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] 能動的サンプリングを用いたリソース構築共有タスクにおける予測対象データ削減2021
- 著者名/発表者名
  中山功太, 栗田修平, 馬場雪乃, 関根聡
- 学会等名
  言語処理学会第27回年次大会
- 関連する報告書
  2020 実績報告書
[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme2021
- 著者名/発表者名
  Satoshi Sekine, Kouta Nakayama, Maya Ando, Yu Usami, Masako Nomoto and Koji Matsuda
- 学会等名
  3rd conference on the Automated Knowledge Base Construction (AKBC 2021)
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Studio Ousia at the NTCIR-15 SHINRA2020-ML Task2020
- 著者名/発表者名
  Sosuke Nishikawa and Ikuya Yamada
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] HUKB at SHINRA2020-ML task2020
- 著者名/発表者名
  Masaharu Yoshioka and Yoshiaki Koitabashi
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] LIAT Team’s Wikipedia Classifier at NTCIR-15 SHINRA2020-ML: Classification Task2020
- 著者名/発表者名
  Kouta Nakayama and Satoshi Sekine
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Overview of SHINRA2020-ML Task2020
- 著者名/発表者名
  Satoshi Sekine, Masako Nomoto, Kouta Nakayama, Asuka Sumida, Koji Matsuda, and Maya Ando
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 関連する報告書
  2020 実績報告書
- 国際学会

信頼される自然言語処理応用システムのための構造化世界知識の協働的貢献による構築

研究代表者

関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)

45,240千円 (直接経費: 34,800千円、間接経費: 10,440千円)

報告書

研究成果

[学会発表] 森羅プロジェクト2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] JEMHopQA:日本語マルチホップQAデータセットの改良2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] マルチホップQAの根拠情報を用いたLLMの``偽''正解の分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] JEMHopQA: Dataset for Japanese Explainable Multi-Hop Question Answering2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 森羅タスクと森羅公開データ2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 森羅タスクと森羅公開データ2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme”2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Co-Teaching Student-Model through Submission Results of Shared Task2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] SHINRA2020-ML:30 言語の Wikipedia ページの分類2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 能動的サンプリングを用いたリソース構築共有タスクにおける予測対象データ削減2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Studio Ousia at the NTCIR-15 SHINRA2020-ML Task2020

著者名/発表者名

関根聡国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)