2021 Fiscal Year Research-status Report
Investigation of Ontology-Style Relation Annotation and Its Effects with Deep Learning
Project/Area Number |
20K11942
|
Research Institution | Toyota Technological Institute |
Principal Investigator |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 情報抽出 / オントロジー形式 / アノテーション / 深層学習 |
Outline of Annual Research Achievements |
本研究は,文書からの情報抽出を対象に,オントロジー形式のアノテーションにより作成された訓練データの効果を検証するものである.従来の関係アノテーションは2つの用語間に関係を付与してきたが,オントロジー形式のアノテーションでは関係用語と対象となる2つの用語をそれぞれdomain, rangeによりリンクする.これにより,関係の種類が少なくなり,用語抽出として関係の種類が識別できるようになる. 1年目には,交通に関する日本語教則文すべてに対して,オントロジー形式のアノテーションを行った.また,BERTにより単語のベクトル化を行い,深層学習モデルDyGIE++による用語・関係抽出の予備実験も実施した. 2021年度は,英語の関係抽出データに対してオントロジー形式のアノテーションを行った.関係抽出データとして,SemEval 2010タスク8のデータを対象とした.このデータは従来形式による関係アノテーションが付与されており,対象用語e1, e2に対して関係Rが有向グラフとして付与されている.そのアノテーションに対して,関係の鍵となる用語を関係用語rとしてアノテーションし,r→e1, r→e2の間にdomain, rangeの関係をアノテーションした.その効果をDyGIE++により検証した.その結果,オントロジー形式のアノテーションにより関係の抽出性能は向上するが,関係用語の認識の性能が制約となり,関係用語抽出~関係抽出までのEnd-to-Endの評価では,従来のアノテーションから改善は得られないことがわかった.一方,日本語の交通に関するアノテーションではオントロジー形式のアノテーションする効果が示されており,オントロジー形式のアノテーションの効果が高いデータと高くないデータが存在することが明らかとなった.このような対比の検証を実験的に行った研究はこれまでなく興味深い結果である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2020年度はコロナ禍によりデータ作成に注力し,交通に関する教則文すべてに対して,オントロジー形式のアノテーションを実施した.2021年度は当初計画では既存の英文の関係抽出データセットをオントロジー形式のアノテーションに変換することを目標としていた.2021年度はこの計画に沿った研究の進捗が得られた. 対象とした英文データ「SemEval 2010タスク8データ」は,8000文の従来型関係アノテーションからなる.2021年度は,8000文すべてについてオントロジー形式のアノテーションに変換した.日本語の関係抽出データと異なる点は,対象となる用語はe1, e2としてあらかじめ与えられており,また1文中の1つの関係のみを予測するデータになっている点である.このため,既存の関係抽出研究と比較する場合,我々のように関係性を予測するよりも,文分類の問題として解いた方が性能が高くなる傾向がある.しかしながら,本研究ではあくまで用語間の関係を直接予測する場合と,関係用語を介してdomain, range関係を予測する場合の比較をすることであるため,対象データセットに対する世界最高性能を達成することを目的としない.また,該英文データセットへのオントロジー形式のアノテーションは,日本語の交通教則データの場合と異なり,設定されている関係が意味的な深さを含んでいないため,関係用語が前置詞などの機能語になる傾向があることがわかった.オントロジー形式のアノテーションは,「人が車を運転する」のような知識関係を記述する場合に効果的であり,「An apple is in the basket.」のような文(inが関係用語)を対象としたデータにはあまり効果的ではなかった.評価実験の結果,オリジナルのアノテーションによる関係抽出性能がF0.899であったのに対し,オントロジー形式ではF0.863となった.
|
Strategy for Future Research Activity |
当初の計画では,2022年度はその時点での最新の深層学習手法により用語抽出と関係抽出の性能を従来法とオントロジー形式に関して日英で比較し,有効性を検証することを目標としていた.最終年度であることから,これまでのアノテーションデータを再整理するとともに,深層学習モデルによる性能評価を継続して行っていく.また,オントロジー形式で関係アノテーションを行うことのメリット・デメリットについても考察し,実際に作成したデータに基づく分析を行う.また,オントロジー形式でアノテーションした結果から,OWL/RDFに基づくオントロジーを抽出することによる知識グラフの構築と,構築された知識グラフを用いた交通法規問題の解法への応用可能性についても検討していく.
|
Causes of Carryover |
コロナ禍により,計算処理能力が必要な研究よりもデータ作成に重点を置いたため、実験設備の導入を計画より遅らせることとした。これにより計算能力が必要となった時点において最新のGPU(RTX4090など)を導入できる。
|
Research Products
(1 results)