• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

信頼される自然言語処理応用システムのための構造化世界知識の協働的貢献による構築

研究課題

研究課題/領域番号 20H00617
研究機関国立研究開発法人理化学研究所

研究代表者

関根 聡  国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)

研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード知識構築 / 自然言語処理 / 協働による知識構築 / 文書分類 / 情報抽出 / エンティティーリンキング
研究実績の概要

Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、2017年よりWikipediaを構造化する「森羅」プロジェクトを推進してきた。本プロジェクトは「協働による知識構築(Resource by Collaborative Contribution)」のスキームに基づき、計12タスクの評価型ワークショップを開催し、参加したシステムの結果を統合してより良い知識にまとめ上げ、それを公開した。
公開データは、日本語のトレーニングデータとしては、2019年のWikipediaデータの92万ページの分類データ、91万の属性値抽出データ、60万エンティティーリンクデータを公開した。また、機械学習による自動構築されたデータとしては、2021年の日本語Wikipediaの100万ページに対する分類データ、属性抽出データ、リンクデータを公開した。日本語以外の30言語を対象にしたものとしては、日本語の人手による分類とWikipediaの言語間リンクを利用した503万の半自動分類データと、3256万の自動分類データを公開した。また、それぞれのタスクに対して評価ワークショップで好成績を納めたシステムをベースに独自に構築した機械学習のベースラインシステムを公開している。また、森羅データを容易に使えるように、RDBとして格納してある分類、属性値、リンクの情報にアクセスするためのAPIをサーバー上に展開して期間限定で公開している。
また、マルチホップ質問応答のデーターセットを構築し、GPT-4をはじめとするLLMが正解を出せない内容を分析し、そのような質問に対し森羅データが正確な回答を出力することができることを実験的に証明し、構造化知識の有用性を検証した。

現在までの達成度 (段落)

令和4年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和4年度が最終年度であるため、記入しない。

  • 研究成果

    (8件)

すべて 2024 2023 2022

すべて 学会発表 (8件) (うち国際学会 2件)

  • [学会発表] 森羅プロジェクト2024

    • 著者名/発表者名
      関根 聡 宇佐美 佑 門脇 一真 三浦 明波 中山 功太 安藤 まや
    • 学会等名
      言語処理学会
  • [学会発表] JEMHopQA:日本語マルチホップQAデータセットの改良2024

    • 著者名/発表者名
      石井愛 , 井之上直也, 鈴木久美, 関根聡
    • 学会等名
      言語処理学会
  • [学会発表] マルチホップQAの根拠情報を用いたLLMの``偽''正解の分析2024

    • 著者名/発表者名
      石井愛 , 井之上直也, 鈴木久美, 関根聡
    • 学会等名
      言語処理学会
  • [学会発表] JEMHopQA: Dataset for Japanese Explainable Multi-Hop Question Answering2024

    • 著者名/発表者名
      Ai Ishii, Naoya Inoue, Hisami Suzuki and Satoshi Sekine
    • 学会等名
      LREC-COLING 2024
    • 国際学会
  • [学会発表] 森羅タスクと森羅公開データ2023

    • 著者名/発表者名
      関根聡, 中山功太, 隅田飛鳥, 渋木英潔, 門脇一真, 三浦明波, 宇佐美佑, 安藤まや
    • 学会等名
      言語処理学会
  • [学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

    • 著者名/発表者名
      関根聡, 中山功太, 野本昌子, 安藤まや, 隅田飛鳥, 松田耕史
    • 学会等名
      言語処理学会
  • [学会発表] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022

    • 著者名/発表者名
      野本昌子, 宇佐美佑, 安藤まや, 中山功太, 関根聡
    • 学会等名
      言語処理学会
  • [学会発表] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022

    • 著者名/発表者名
      Satoshi Sekine, Kouta Nakayama, Masako Nomoto, Maya Ando, Asuka Sumida, Koji Matsuda
    • 学会等名
      COLING 2022
    • 国際学会

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi