• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

Building structured Knowledge Base for trustable NLP application systems by Resource by Collaborative Construction scheme

Research Project

Project/Area Number 20H00617
Research InstitutionInstitute of Physical and Chemical Research

Principal Investigator

関根 聡  国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords知識構築 / 自然言語処理 / 協働による知識構築 / 文書分類 / 情報抽出 / エンティティーリンキング
Outline of Annual Research Achievements

「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。
2021年には、2020年に引き続き、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。また、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。
2020年には日本語を対象に、文書分類、属性値抽出、エンティティーリンキングの3つのタスクを一気に解き、構造化知識をEnd-toEndで構築するタスクを実施しました、これらのタスクを通し、技術の進展と問題点の把握などが行われました。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

これまでに9のタスクを実施し、目標としている構造化知識構築の3つのタスク全てを実施した。特に日本語において3つのタスクを全て行い、自動的な知識構築技術の確立にめどはついた。ただし、構築技術の確立には3つのタスクの内の属性地抽出技術の精度が他に比べて極端に低く、今後解決していくべき問題点があることを認識している。

Strategy for Future Research Activity

2023年度には、上記に挙げた属性値抽出の精度の問題点を解決するとともに、構築した構造化知識の応用についての研究を進め、信頼できる人工知能の実現に取り組んでいきます。

  • Research Products

    (5 results)

All 2023 2022 2021

All Presentation (5 results) (of which Int'l Joint Research: 3 results)

  • [Presentation] 森羅タスクと森羅公開データ2023

    • Author(s)
      関根聡 (理研), 中山功太 (理研/筑波大), 隅田飛鳥 (理研), 渋木英潔 (BESNA), 門脇一真 (日本総研), 三浦明波 (アティード), 宇佐美佑 (Usami LLC), 安藤まや (フリー)
    • Organizer
      言語処理学会年次大会
  • [Presentation] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022

    • Author(s)
      1.Satoshi Sekine, Kouta Nakayama, Masako Nomoto, Maya Ando, Asuka Sumida, Koji Matsuda
    • Organizer
      COLING 2022
    • Int'l Joint Research
  • [Presentation] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

    • Author(s)
      関根聡, 中山功太, 野本昌子 (理研), 安藤まや (フリー), 隅田飛鳥, 松田耕史 (理研)
    • Organizer
      言語処理学会年次大会
  • [Presentation] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme”2021

    • Author(s)
      2.Satoshi Sekine, Kouta Nakayama, Koji Matsuda, Asuka Sumida, Maya Ando, Yu Usami, Masako Nomoto
    • Organizer
      Automated Knowledge Base Construction
    • Int'l Joint Research
  • [Presentation] Co-Teaching Student-Model through Submission Results of Shared Task2021

    • Author(s)
      3.Kouta Nakayama, Yukino Baba, Satoshi Sekine
    • Organizer
      EMNLP 2021
    • Int'l Joint Research

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi