研究課題/領域番号 |
20K11942
|
研究機関 | 豊田工業大学 |
研究代表者 |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | オントロジー型関係抽出 / アノテーション / コーパス / 交通ルール |
研究実績の概要 |
1987年の第1回Message Understanding Conference(MUC)以来,新聞記事からの知識獲得技術は機械学習技術の発展とともにその性能を向上させてきた.しかし,従来の一般分野を対象とした関係抽出・情報抽出用のデータセット(コーパス)は,数種類程度の単純な関係性を対象にしていた.また,代表的な関係抽出データセットSemEval2010 Task 8データセットは1文中の1つの関係しか対象としておらず,オントロジー拡張のための知識獲得基盤技術としては問題を単純化し過ぎていた. そこで,本研究ではオントロジー形式の表現に合わせたアノテーション法を考案することにより,関係抽出の性能を向上させるとともに,複雑で意味関係を含んだ知識を直接文書から取り出せるようにすることを目的している.関係抽出は,用語抽出と関係抽出の2つの副問題の組み合わせになっており,本研究では関係の種類を限定し,オントロジー記述で定義されている domain, range, subClassOf等とする点が特徴である. 2020年度当初計画では,オントロジー形式のアノテーションのガイドラインを検討し,所有する交通教則文コーパスに対して,オントロジー形式のアノテーションへの変換作業を実施するとしていた.2020年度の成果として,コロナ禍によりソフトウェアの実装と実験を伴う研究を抑制し,データ作成に注力した点が挙げられる.交通に関する教則文すべてに対して,オントロジー形式のアノテーションを完成させた.また,オントロジー型のアノテーションからオントロジーのエントリーに変換するツールも作成した.また,BERTにより単語のベクトル化を行い,深層学習モデルDyGIE++による用語・関係抽出の予備実験も実施した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2020年度当初計画では,オントロジー形式のアノテーションのガイドラインを検討し,所有する交通教則文コーパスに対して,オントロジー形式のアノテーションへの変換作業を実施するとしていた.2020年度の進捗状況としては,コロナ禍によりソフトウェアの実装や実験を伴う研究に関する進捗には影響があった.一方,データの作成に注力し,交通に関する教則文すべてに対して,オントロジー形式のアノテーションを完成させた.従来型の交通教則アノテーションの誤りの修正や改善も同時に行った.その結果,49節,1,476文からなる教則文に対して,4,277箇所の関係用語のアノテーションを含むコーパスを完成させることができた.アノテーションした関係数は10,439箇所に上る. また,オントロジー型のアノテーションからオントロジーのエントリーに変換するPythonプログラムのプロトタイプも作成した.予備実験ではおおむね変換はできていたが,交通知識ベースをして利用するには整合性や関連性に関する改善が必要であることが判明した. さらに,深層学習モデルによる関係抽出実験も実施した.BERTにより単語のベクトル化を行い,深層学習モデルDyGIE++による用語・関係抽出の予備実験も実施した.予備実験の段階ではあるが,正解の用語が与えられている(ただし,関係用語は与えられていない)場合には,関係抽出のF1スコアが従来型の0.534からオントロジー型の0.759に大きく改善することが示された.一方,用語抽出については,従来型が0.781であるのに対し,オントロジー型では0.747と少し低下した.これは,関係用語の認識が新たに必要になり,その部分の予測の性能が低下しているためである.用語認識と関係抽出をパイプラインにより連結した実験でも,オントロジー型のアノテーションのスコアが従来型より高くなっている.
|
今後の研究の推進方策 |
2020年度の進捗により,日本語の交通教則に関するオントロジー型のアノテーションデータが完成し,関係抽出に関する予備実験も実施できた.今後は,深層学習モデルによる用語と関係の抽出の性能を,従来型およびオントロジー型で比較し,優劣について詳細に考察していく. まず,日本語のデータ以外での効果を確認するため,英語の関係抽出データに対して,オントロジー型のアノテーションを行い,深層学習モデルによる評価を試みる.具体的には,SemEval2010 Task 8 の関係抽出コーパスを対象とする.このコーパスは,文単位の関係抽出データであり,2つの用語間の関係性をアノテートしたものである.1文に1つの関係しか出現しないため,多くの既存のシステムは文分類問題としてこのデータを解いている.ここでは,知識の抽出が目的であるので,2つの用語間の関係を関係用語を媒介として判定する問題として解く. このように,日英のデータにより,従来型の関係抽出とオントロジー型の関係抽出についての詳細な比較を行う.英語の場合も含めて,従来型により関係を記述していたアノテーションを,関係用語の導入によりdomainとrange等の少数の関係のみのアノテーションに本当に書き換えられるのか.たとえば,関係に対応させる関係用語が常に存在するのか,関係用語に複数の可能性がある場合,どれを選ぶのが適切か.従来型のアノテーションとオントロジー型のアノテーションに対して,それぞれ同じ最新の深層用語抽出と深層関係抽出を適用したとき,日本語・英語ともにトータルでの関係抽出の性能は向上するのか等を確認する.用語抽出の性能が高いことと,関係の種類が少ないほど関係抽出の性能が高くなることを考慮すると,オントロジー型のアノテーションが性能面では有利であると推測されるが,このことを実証した研究は存在しないため強い興味を持って検証していく.
|
次年度使用額が生じた理由 |
コロナ禍により,サーバーを用いた大規模計算実験よりもオントロジー型のアノテーションデータ作成に注力したため,計算用のサーバーの購入を延期することとした.また,同様にコロナ禍により,国際会議や国内学会が中止またはオンライン開催となり,国内・海外出張の費用が発生しなかったことも要因となっている.
|