• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Building structured Knowledge Base for trustable NLP application systems by Resource by Collaborative Construction scheme

Research Project

Project/Area Number 20H00617
Research InstitutionInstitute of Physical and Chemical Research

Principal Investigator

関根 聡  国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords知識構築 / 自然言語処理 / 協働による知識構築 / 文書分類 / 情報抽出 / エンティティーリンキング
Outline of Annual Research Achievements

Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、2017年よりWikipediaを構造化する「森羅」プロジェクトを推進してきた。本プロジェクトは「協働による知識構築(Resource by Collaborative Contribution)」のスキームに基づき、計12タスクの評価型ワークショップを開催し、参加したシステムの結果を統合してより良い知識にまとめ上げ、それを公開した。
公開データは、日本語のトレーニングデータとしては、2019年のWikipediaデータの92万ページの分類データ、91万の属性値抽出データ、60万エンティティーリンクデータを公開した。また、機械学習による自動構築されたデータとしては、2021年の日本語Wikipediaの100万ページに対する分類データ、属性抽出データ、リンクデータを公開した。日本語以外の30言語を対象にしたものとしては、日本語の人手による分類とWikipediaの言語間リンクを利用した503万の半自動分類データと、3256万の自動分類データを公開した。また、それぞれのタスクに対して評価ワークショップで好成績を納めたシステムをベースに独自に構築した機械学習のベースラインシステムを公開している。また、森羅データを容易に使えるように、RDBとして格納してある分類、属性値、リンクの情報にアクセスするためのAPIをサーバー上に展開して期間限定で公開している。
また、マルチホップ質問応答のデーターセットを構築し、GPT-4をはじめとするLLMが正解を出せない内容を分析し、そのような質問に対し森羅データが正確な回答を出力することができることを実験的に証明し、構造化知識の有用性を検証した。

Research Progress Status

令和4年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和4年度が最終年度であるため、記入しない。

  • Research Products

    (8 results)

All 2024 2023 2022

All Presentation (8 results) (of which Int'l Joint Research: 2 results)

  • [Presentation] 森羅プロジェクト2024

    • Author(s)
      関根 聡 宇佐美 佑 門脇 一真 三浦 明波 中山 功太 安藤 まや
    • Organizer
      言語処理学会
  • [Presentation] JEMHopQA:日本語マルチホップQAデータセットの改良2024

    • Author(s)
      石井愛 , 井之上直也, 鈴木久美, 関根聡
    • Organizer
      言語処理学会
  • [Presentation] マルチホップQAの根拠情報を用いたLLMの``偽''正解の分析2024

    • Author(s)
      石井愛 , 井之上直也, 鈴木久美, 関根聡
    • Organizer
      言語処理学会
  • [Presentation] JEMHopQA: Dataset for Japanese Explainable Multi-Hop Question Answering2024

    • Author(s)
      Ai Ishii, Naoya Inoue, Hisami Suzuki and Satoshi Sekine
    • Organizer
      LREC-COLING 2024
    • Int'l Joint Research
  • [Presentation] 森羅タスクと森羅公開データ2023

    • Author(s)
      関根聡, 中山功太, 隅田飛鳥, 渋木英潔, 門脇一真, 三浦明波, 宇佐美佑, 安藤まや
    • Organizer
      言語処理学会
  • [Presentation] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

    • Author(s)
      関根聡, 中山功太, 野本昌子, 安藤まや, 隅田飛鳥, 松田耕史
    • Organizer
      言語処理学会
  • [Presentation] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022

    • Author(s)
      野本昌子, 宇佐美佑, 安藤まや, 中山功太, 関根聡
    • Organizer
      言語処理学会
  • [Presentation] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022

    • Author(s)
      Satoshi Sekine, Kouta Nakayama, Masako Nomoto, Maya Ando, Asuka Sumida, Koji Matsuda
    • Organizer
      COLING 2022
    • Int'l Joint Research

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi