2021 年度実績報告書

信頼される自然言語処理応用システムのための構造化世界知識の協働的貢献による構築

研究課題

研究課題/領域番号	20H00617
研究機関	国立研究開発法人理化学研究所
研究代表者	関根聡国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	知識構築 / 自然言語処理 / 協働による知識構築 / 文書分類 / 情報抽出 / エンティティーリンキング
研究実績の概要	「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2021年には、2020年に引き続き、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。また、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。 2020年には日本語を対象に、文書分類、属性値抽出、エンティティーリンキングの3つのタスクを一気に解き、構造化知識をEnd-toEndで構築するタスクを実施しました、これらのタスクを通し、技術の進展と問題点の把握などが行われました。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由これまでに９のタスクを実施し、目標としている構造化知識構築の3つのタスク全てを実施した。特に日本語において3つのタスクを全て行い、自動的な知識構築技術の確立にめどはついた。ただし、構築技術の確立には3つのタスクの内の属性地抽出技術の精度が他に比べて極端に低く、今後解決していくべき問題点があることを認識している。
今後の研究の推進方策	2023年度には、上記に挙げた属性値抽出の精度の問題点を解決するとともに、構築した構造化知識の応用についての研究を進め、信頼できる人工知能の実現に取り組んでいきます。

研究成果
(5件)

すべて 2023 2022 2021

すべて学会発表 (5件) (うち国際学会 3件)

[学会発表] 森羅タスクと森羅公開データ2023
- 著者名/発表者名
  関根聡 (理研), 中山功太 (理研/筑波大), 隅田飛鳥 (理研), 渋木英潔 (BESNA), 門脇一真 (日本総研), 三浦明波 (アティード), 宇佐美佑 (Usami LLC), 安藤まや (フリー)
- 学会等名
  言語処理学会年次大会
[学会発表] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022
- 著者名/発表者名
  1.Satoshi Sekine, Kouta Nakayama, Masako Nomoto, Maya Ando, Asuka Sumida, Koji Matsuda
- 学会等名
  COLING 2022
- 国際学会
[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022
- 著者名/発表者名
  関根聡, 中山功太, 野本昌子 (理研), 安藤まや (フリー), 隅田飛鳥, 松田耕史 (理研)
- 学会等名
  言語処理学会年次大会
[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme”2021
- 著者名/発表者名
  2.Satoshi Sekine, Kouta Nakayama, Koji Matsuda, Asuka Sumida, Maya Ando, Yu Usami, Masako Nomoto
- 学会等名
  Automated Knowledge Base Construction
- 国際学会
[学会発表] Co-Teaching Student-Model through Submission Results of Shared Task2021
- 著者名/発表者名
  3.Kouta Nakayama, Yukino Baba, Satoshi Sekine
- 学会等名
  EMNLP 2021
- 国際学会

2021 年度 実績報告書

信頼される自然言語処理応用システムのための構造化世界知識の協働的貢献による構築

研究代表者

関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 森羅タスクと森羅公開データ2023

著者名/発表者名

学会等名

[学会発表] Resource of Wikipedias in 31 Languages Categorized into Fine-Grained Named Entities2022

著者名/発表者名

学会等名

[学会発表] 拡張固有表現に分類された31言語のWikipedia知識ベース2022

著者名/発表者名

学会等名

[学会発表] SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme”2021

著者名/発表者名

学会等名

[学会発表] Co-Teaching Student-Model through Submission Results of Shared Task2021

著者名/発表者名

学会等名

2021 年度実績報告書

関根聡国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)