• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

Building structured Knowledge Base for trustable NLP application systems by Resource by Collaborative Construction scheme

Research Project

Project/Area Number 20H00617
Research InstitutionInstitute of Physical and Chemical Research

Principal Investigator

関根 聡  国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords知識構築 / 自然言語処理 / 協働による知識構築
Outline of Annual Research Achievements

「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。
2020年には、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。前者は世界中から10の研究機関が参加し(日本(4), ベトナム(2), インド(1),台湾(1), オーストラリア(1),フィンランド(1), ポルトガル(1))、巨大なリソース構築を実現し、その成果は一般に公開しています。後者は、2018,2019年に行った35カテゴリーに加えて、施設名、イベント名を中心とした45カテゴリーを加えた属性値抽出タスクを実施しました。この成果も一般に公開しています。
2021年には、SHINRA2020-MLタスクを継続し実施すると共に、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。
これらのタスクを通じた「協働による知識構築」の概念は知れ渡り始めており、森羅プロジェクトへの協力者も増えており、さらなる展開に向けた基盤が構築されました。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

コロナ禍により、実際のオフラインでのイベントや啓蒙活動ができず、大きな制約となったが、オンラインを駆使し、様々なメイリングリスト、SNS、知り合いを使った伝達などで、プロジェクトの存在意義を主張し続け、「森羅プロジェクト」の活動が広くこの分野の研究者には知れ渡っているものと思われる。2回にわたる4つのタスクの参加者は、コロナ以前と比べて少ないと言わざるを得ないが、実際に参加してくれている人のシステムはしっかりとしたものであり、多くのことなった技術が使われており、当初の目的は達成できていると考えている。

Strategy for Future Research Activity

2022年の活動としては、日本語に集中することとした。これは海外の大学などでの啓蒙/宣伝活動ができないか、非常に難しいこともあるが、日本語での首尾一貫した知識構築を経験することにより、再度幅を広げていく可能性を探る意味合いがある。日本語において、これまでの成果を利用し、3つのタスクを同時に実施することを考えている。分類タスク、属性値抽出タスク、リンキングタスクである。この3つのタスクをEnd-to-Endで実施することにより、タスク間の相乗効果が期待できる。また、知識構築における大きな課題であった「アップデート」の課題解決の方策の研究が可能になると考えている。つまり、過去のWikipedia(例えば2019年版)において構築された構造化知識を教師データとして利用して、2021年版のWikipediaの構造化知識構築を実現するという可能性である。つまり、この方策が成功すれば、その後も2021年版の知識を使って2023年版の構造化知識を構築するということが可能になり、継続的なアップデートの方策に対する光明を見出すことができる。今後は、精度向上の研究方向性と共に、アップデートの方策に関する研究も推進していくと考えている。

  • Research Products

    (9 results)

All 2022 2021 2020

All Presentation (9 results) (of which Int'l Joint Research: 5 results)

  • [Presentation] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022

    • Author(s)
      野本昌子, 宇佐美佑, 安藤まや, 中山功太, 関根聡
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

    • Author(s)
      関根聡, 中山功太, 野本昌子, 安藤まや, 隅田飛鳥, 松田耕史
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] SHINRA2020-ML:30 言語の Wikipedia ページの分類2021

    • Author(s)
      関根聡, 野本昌子, 中山功太, 隅田飛鳥, 松田耕史, 安藤まや
    • Organizer
      言語処理学会第27回年次大会
  • [Presentation] 能動的サンプリングを用いたリソース構築共有タスクにおける予測対象データ削減2021

    • Author(s)
      中山功太, 栗田修平, 馬場雪乃, 関根聡
    • Organizer
      言語処理学会第27回年次大会
  • [Presentation] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme2021

    • Author(s)
      Satoshi Sekine, Kouta Nakayama, Maya Ando, Yu Usami, Masako Nomoto and Koji Matsuda
    • Organizer
      3rd conference on the Automated Knowledge Base Construction (AKBC 2021)
    • Int'l Joint Research
  • [Presentation] Studio Ousia at the NTCIR-15 SHINRA2020-ML Task2020

    • Author(s)
      Sosuke Nishikawa and Ikuya Yamada
    • Organizer
      In Proceedings of the NTCIR-15 Conference
    • Int'l Joint Research
  • [Presentation] HUKB at SHINRA2020-ML task2020

    • Author(s)
      Masaharu Yoshioka and Yoshiaki Koitabashi
    • Organizer
      In Proceedings of the NTCIR-15 Conference
    • Int'l Joint Research
  • [Presentation] LIAT Team’s Wikipedia Classifier at NTCIR-15 SHINRA2020-ML: Classification Task2020

    • Author(s)
      Kouta Nakayama and Satoshi Sekine
    • Organizer
      In Proceedings of the NTCIR-15 Conference
    • Int'l Joint Research
  • [Presentation] Overview of SHINRA2020-ML Task2020

    • Author(s)
      Satoshi Sekine, Masako Nomoto, Kouta Nakayama, Asuka Sumida, Koji Matsuda, and Maya Ando
    • Organizer
      In Proceedings of the NTCIR-15 Conference
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi