Wikipediaに書かれている世界知識を計算機が扱えるような形に変換することを目的として、2017年よりWikipediaを構造化する「森羅」プロジェクトを推進してきた。本プロジェクトは「協働による知識構築(Resource by Collaborative Contribution)」のスキームに基づき、計12タスクの評価型ワークショップを開催し、参加したシステムの結果を統合してより良い知識にまとめ上げ、それを公開した。 公開データは、日本語のトレーニングデータとしては、2019年のWikipediaデータの92万ページの分類データ、91万の属性値抽出データ、60万エンティティーリンクデータを公開した。また、機械学習による自動構築されたデータとしては、2021年の日本語Wikipediaの100万ページに対する分類データ、属性抽出データ、リンクデータを公開した。日本語以外の30言語を対象にしたものとしては、日本語の人手による分類とWikipediaの言語間リンクを利用した503万の半自動分類データと、3256万の自動分類データを公開した。また、それぞれのタスクに対して評価ワークショップで好成績を納めたシステムをベースに独自に構築した機械学習のベースラインシステムを公開している。また、森羅データを容易に使えるように、RDBとして格納してある分類、属性値、リンクの情報にアクセスするためのAPIをサーバー上に展開して期間限定で公開している。 また、マルチホップ質問応答のデーターセットを構築し、GPT-4をはじめとするLLMが正解を出せない内容を分析し、そのような質問に対し森羅データが正確な回答を出力することができることを実験的に証明し、構造化知識の有用性を検証した。
|