2022 Fiscal Year Research-status Report
Investigation of Ontology-Style Relation Annotation and Its Effects with Deep Learning
Project/Area Number |
20K11942
|
Research Institution | Toyota Technological Institute |
Principal Investigator |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 情報抽出 / オントロジー形式 / アノテーション / 深層学習 |
Outline of Annual Research Achievements |
本研究は,文書からの情報抽出を対象に,オントロジー形式のアノテーションにより作成された訓練データの効果を検証するものである.従来の関係アノテーションは2つの用語間に関係を付与してきたが,オントロジー形式のアノテーションでは関係用語と対象となる2つの用語をそれぞれdomain, rangeによりリンクする.これにより,関係の種類が少なくなり,用語抽出として関係の種類が識別できるようになる. 1年目には,交通教則文すべてに対して,オントロジー形式のアノテーションを行った.また,BERTにより単語のベクトル化を行い,深層学習モデルによる用語・関係抽出の予備実験も実施した. 2年目には,英語の関係抽出データに対してオントロジー形式のアノテーションを行った.関係抽出データとして,SemEval 2010タスク8のデータを対象とした.このデータは従来形式による関係アノテーションが付与されており,対象用語e1, e2に対して関係Rが有向グラフとして付与されており,この r→e1, r→e2の間にdomain, rangeの関係をアノテーションし,その効果を深層学習モデルにより検証した. 2022年度は,交通教則文およびSemEvalデータへのアノテーションを一般に公開した.さらに,日本語交通教則に対するアノテーションを全面的に見直した.交通教則は通常の自然言語文として書かれているため,主語や目的語の省略が多数含まれている.特に,箇条書きではトピックとなっている対象が箇条書きでは省略され,遠隔の参照が発生していた.そこで,本研究の新しい試みとして,交通教則の文を正規化し,省略部分に対する遠隔の関係づけを低減する修正を行った.アノテーションの見直しは時間のかかる地道な作業であり,目立った成果ではないが研究的な価値は高い.これに沿ったアノテーションガイドラインの整備も実施した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2020年度はコロナ禍の影響でデータ作成を中心に切り替え,交通に関する教則文すべてにオントロジー形式アノテーションを実施した.2021年度は当初計画通り,既存の英文の関係抽出データセットをオントロジー形式のアノテーションに変換し,評価実験等の研究の進捗が得られた.2022年度は,アノテーションデータを公開するとともに,アノテーションの見直しを実施した.また,アノテーションガイドラインの作成も行った. 日本語データは,交通教則文に対して,交通用語とその関係を提案者らがオントロジー形式のアノテーションを行ったデータである.英文データは,「SemEval 2010タスク8データ」を対象とした.英文データは8000文に対して従来型関係アノテーションを行われている.2021年度までに,この英文8000文すべてについてオントロジー形式のアノテーションに変換した. 2022年度は,交通教則文およびSemEvalデータへのアノテーションを一般に公開した.さらに,日本語交通教則に対するアノテーションを全面的に見直すこととした.交通教則は通常の自然言語文として書かれているため,主語や目的語の省略が多数含まれている.特に,箇条書きではトピックとなっている対象が箇条書きでは省略され,遠隔の関係づけが発生していた.文間の関係づけは昨今の深層学習技術により扱える対象ではあるが,そもそも文書からオントロジーに至る変換経路を探索することが本研究の根底にあるため,発想を変え,原文自体を修正することでアノテーションの質を向上させることを考えた.アノテーションの見直しは時間のかかる地道な作業であり,目立った成果ではないが研究資源を構築するという意味でその価値は高い.さらに,アノテーションガイドラインの整備も実施した.しかしながら,コロナ禍の影響でアノテーションの修正とガイドラインの作成が完了には至らなかった.
|
Strategy for Future Research Activity |
当初の予定では,2020年度~2022年度の3年間で本研究課題を実施する計画であったが,研究課題の開始時期に予期せぬコロナ禍が発生し,大学が一時期入校禁止になるなど,影響があった.さらに授業が急遽オンラインになるなど,大学全体の運営に携わる時間も例年よりも長くとられたこともあり,本研究課題は少なからず影響を受けた.そのため研究の進捗が遅れないように努めてきたが,最終的な研究成果のとりまとめの段階にあたって,全体的なわずかな遅れが蓄積されてきた影響を実感した.2022年度内にはアノテーションの見直しと整備,およびアノテーションガイドラインの作成が目標とする品質で完了しないことが見込まれたため,2023年度に研究課題を延長することとした.
|
Causes of Carryover |
コロナ禍による研究の進捗への影響
|
Research Products
(2 results)