2020 年度実績報告書

信頼される自然言語処理応用システムのための構造化世界知識の協働的貢献による構築

研究課題

研究課題/領域番号	20H00617
研究機関	国立研究開発法人理化学研究所
研究代表者	関根聡国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	知識構築 / 自然言語処理 / 協働による知識構築
研究実績の概要	「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2020年には、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。前者は世界中から10の研究機関が参加し（日本(4), ベトナム(2), インド(1),台湾(1), オーストラリア(1),フィンランド(1), ポルトガル(1)）、巨大なリソース構築を実現し、その成果は一般に公開しています。後者は、2018,2019年に行った35カテゴリーに加えて、施設名、イベント名を中心とした45カテゴリーを加えた属性値抽出タスクを実施しました。この成果も一般に公開しています。 2021年には、SHINRA2020-MLタスクを継続し実施すると共に、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。これらのタスクを通じた「協働による知識構築」の概念は知れ渡り始めており、森羅プロジェクトへの協力者も増えており、さらなる展開に向けた基盤が構築されました。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由コロナ禍により、実際のオフラインでのイベントや啓蒙活動ができず、大きな制約となったが、オンラインを駆使し、様々なメイリングリスト、SNS、知り合いを使った伝達などで、プロジェクトの存在意義を主張し続け、「森羅プロジェクト」の活動が広くこの分野の研究者には知れ渡っているものと思われる。2回にわたる4つのタスクの参加者は、コロナ以前と比べて少ないと言わざるを得ないが、実際に参加してくれている人のシステムはしっかりとしたものであり、多くのことなった技術が使われており、当初の目的は達成できていると考えている。
今後の研究の推進方策	2022年の活動としては、日本語に集中することとした。これは海外の大学などでの啓蒙／宣伝活動ができないか、非常に難しいこともあるが、日本語での首尾一貫した知識構築を経験することにより、再度幅を広げていく可能性を探る意味合いがある。日本語において、これまでの成果を利用し、3つのタスクを同時に実施することを考えている。分類タスク、属性値抽出タスク、リンキングタスクである。この3つのタスクをEnd-to-Endで実施することにより、タスク間の相乗効果が期待できる。また、知識構築における大きな課題であった「アップデート」の課題解決の方策の研究が可能になると考えている。つまり、過去のWikipedia(例えば2019年版）において構築された構造化知識を教師データとして利用して、2021年版のWikipediaの構造化知識構築を実現するという可能性である。つまり、この方策が成功すれば、その後も2021年版の知識を使って2023年版の構造化知識を構築するということが可能になり、継続的なアップデートの方策に対する光明を見出すことができる。今後は、精度向上の研究方向性と共に、アップデートの方策に関する研究も推進していくと考えている。

研究成果

(9件)

すべて 2022 2021 2020

すべて学会発表 (9件) (うち国際学会 5件)

[学会発表] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022
- 著者名/発表者名
  野本昌子, 宇佐美佑, 安藤まや, 中山功太, 関根聡
- 学会等名
  言語処理学会第28回年次大会
[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022
- 著者名/発表者名
  関根聡, 中山功太, 野本昌子, 安藤まや, 隅田飛鳥, 松田耕史
- 学会等名
  言語処理学会第28回年次大会
[学会発表] SHINRA2020-ML:30 言語の Wikipedia ページの分類2021
- 著者名/発表者名
  関根聡, 野本昌子, 中山功太, 隅田飛鳥, 松田耕史, 安藤まや
- 学会等名
  言語処理学会第27回年次大会
[学会発表] 能動的サンプリングを用いたリソース構築共有タスクにおける予測対象データ削減2021
- 著者名/発表者名
  中山功太, 栗田修平, 馬場雪乃, 関根聡
- 学会等名
  言語処理学会第27回年次大会
[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme2021
- 著者名/発表者名
  Satoshi Sekine, Kouta Nakayama, Maya Ando, Yu Usami, Masako Nomoto and Koji Matsuda
- 学会等名
  3rd conference on the Automated Knowledge Base Construction (AKBC 2021)
- 国際学会
[学会発表] Studio Ousia at the NTCIR-15 SHINRA2020-ML Task2020
- 著者名/発表者名
  Sosuke Nishikawa and Ikuya Yamada
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 国際学会
[学会発表] HUKB at SHINRA2020-ML task2020
- 著者名/発表者名
  Masaharu Yoshioka and Yoshiaki Koitabashi
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 国際学会
[学会発表] LIAT Team’s Wikipedia Classifier at NTCIR-15 SHINRA2020-ML: Classification Task2020
- 著者名/発表者名
  Kouta Nakayama and Satoshi Sekine
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 国際学会
[学会発表] Overview of SHINRA2020-ML Task2020
- 著者名/発表者名
  Satoshi Sekine, Masako Nomoto, Kouta Nakayama, Asuka Sumida, Koji Matsuda, and Maya Ando
- 学会等名
  In Proceedings of the NTCIR-15 Conference
- 国際学会

2020 年度 実績報告書

信頼される自然言語処理応用システムのための構造化世界知識の協働的貢献による構築

研究代表者

関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 森羅2021-LinkJP結果の分析:BERTとルールベースの比較2022

著者名/発表者名

学会等名

[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

著者名/発表者名

学会等名

[学会発表] SHINRA2020-ML:30 言語の Wikipedia ページの分類2021

著者名/発表者名

学会等名

[学会発表] 能動的サンプリングを用いたリソース構築共有タスクにおける予測対象データ削減2021

著者名/発表者名

学会等名

[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme2021

著者名/発表者名

学会等名

[学会発表] Studio Ousia at the NTCIR-15 SHINRA2020-ML Task2020

著者名/発表者名

学会等名

[学会発表] HUKB at SHINRA2020-ML task2020

著者名/発表者名

学会等名

[学会発表] LIAT Team’s Wikipedia Classifier at NTCIR-15 SHINRA2020-ML: Classification Task2020

著者名/発表者名

学会等名

[学会発表] Overview of SHINRA2020-ML Task2020

著者名/発表者名

学会等名

2020 年度実績報告書

関根聡国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)