2020 Fiscal Year Annual Research Report
Building structured Knowledge Base for trustable NLP application systems by Resource by Collaborative Construction scheme
Project/Area Number |
20H00617
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
関根 聡 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (00813255)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 知識構築 / 自然言語処理 / 協働による知識構築 |
Outline of Annual Research Achievements |
「森羅プロジェクト」はWikipediaの知識を拡張固有表現に基づき、多くの方の協働の元で構造化しようという「協働によるリソース構築(Resource by Collaborative Contribution)」のプロジェクトです。 2020年には、30言語のWikipediaを、拡張固有表現の約220カテゴリーに分類するタスク(SHINRA2020-ML)と日本語の属性値抽出を行うタスク(SHINRA2020-JP)を実施しました。前者は世界中から10の研究機関が参加し(日本(4), ベトナム(2), インド(1),台湾(1), オーストラリア(1),フィンランド(1), ポルトガル(1))、巨大なリソース構築を実現し、その成果は一般に公開しています。後者は、2018,2019年に行った35カテゴリーに加えて、施設名、イベント名を中心とした45カテゴリーを加えた属性値抽出タスクを実施しました。この成果も一般に公開しています。 2021年には、SHINRA2020-MLタスクを継続し実施すると共に、日本語では抽出した属性値のリンク先を見つけるタスクを初めて実施しました。7カテゴリーの200ページのサンプルデータを作成し、文字列が差ししめいている実際のWikipediaを見つけリンクをするタスクです。違った手法を用いた4つのシステムが提出され、その分析を行い今後の方向性を確認しました。 これらのタスクを通じた「協働による知識構築」の概念は知れ渡り始めており、森羅プロジェクトへの協力者も増えており、さらなる展開に向けた基盤が構築されました。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
コロナ禍により、実際のオフラインでのイベントや啓蒙活動ができず、大きな制約となったが、オンラインを駆使し、様々なメイリングリスト、SNS、知り合いを使った伝達などで、プロジェクトの存在意義を主張し続け、「森羅プロジェクト」の活動が広くこの分野の研究者には知れ渡っているものと思われる。2回にわたる4つのタスクの参加者は、コロナ以前と比べて少ないと言わざるを得ないが、実際に参加してくれている人のシステムはしっかりとしたものであり、多くのことなった技術が使われており、当初の目的は達成できていると考えている。
|
Strategy for Future Research Activity |
2022年の活動としては、日本語に集中することとした。これは海外の大学などでの啓蒙/宣伝活動ができないか、非常に難しいこともあるが、日本語での首尾一貫した知識構築を経験することにより、再度幅を広げていく可能性を探る意味合いがある。日本語において、これまでの成果を利用し、3つのタスクを同時に実施することを考えている。分類タスク、属性値抽出タスク、リンキングタスクである。この3つのタスクをEnd-to-Endで実施することにより、タスク間の相乗効果が期待できる。また、知識構築における大きな課題であった「アップデート」の課題解決の方策の研究が可能になると考えている。つまり、過去のWikipedia(例えば2019年版)において構築された構造化知識を教師データとして利用して、2021年版のWikipediaの構造化知識構築を実現するという可能性である。つまり、この方策が成功すれば、その後も2021年版の知識を使って2023年版の構造化知識を構築するということが可能になり、継続的なアップデートの方策に対する光明を見出すことができる。今後は、精度向上の研究方向性と共に、アップデートの方策に関する研究も推進していくと考えている。
|
Research Products
(9 results)