研究実績の概要 |
「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2020年には、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。前者は世界中から10の研究機関が参加し(日本(4), ベトナム(2), インド(1),台湾(1), オーストラリア(1),フィンランド(1), ポルトガル(1))、巨大なリソース構築を実現し、その成果は一般に公開しています。後者は、2018,2019年に行った35カテゴリーに加えて、施設名、イベント名を中心とした45カテゴリーを加えた属性値抽出タスクを実施しました。この成果も一般に公開しています。 2021年には、SHINRA2020-MLタスクを継続し実施すると共に、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。 これらのタスクを通じた「協働による知識構築」の概念は知れ渡り始めており、森羅プロジェクトへの協力者も増えており、さらなる展開に向けた基盤が構築されました。
|