研究課題/領域番号 |
20K11942
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 豊田工業大学 |
研究代表者 |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2020年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 情報抽出 / オントロジー形式 / アノテーション / 深層学習 / オントロジー型関係抽出 / コーパス / 交通ルール / オントロジー / Ontology-Styleアノテーション / 関係抽出 |
研究開始時の研究の概要 |
本研究では,オントロジー形式の表現に合わせた関係アノテーション法を考案することにより,関係抽出の性能を向上させることを目的とする.たとえば,「乗用車の定員は10人以下」に対する従来のアノテーションは「乗用車」→CAPACITY→「10人以下」である.本研究では関係用語を中心とした関係アノテーションに変更する.オントロジーの表現形式と直接対応し,<乗用車>-<type>-<Car>,<定員>-<type>-<Capacity>, <10人以下>-<type>-<Value>, <Capacity>-<domain>-<Car> ,<Capacity>-<range>-<Value> となる.
|
研究実績の概要 |
本研究は,文書からの情報抽出を対象に,オントロジー形式のアノテーションにより作成された訓練データの効果を検証するものである.従来の関係アノテーションは2つの用語間に関係を付与してきたが,オントロジー形式のアノテーションでは関係用語と対象となる2つの用語をそれぞれdomain, rangeによりリンクする.これにより,関係の種類が少なくなり,用語抽出として関係の種類が識別できるようになる. 1年目には,交通教則文すべてに対して,オントロジー形式のアノテーションを行った.また,BERTにより単語のベクトル化を行い,深層学習モデルによる用語・関係抽出の予備実験も実施した. 2年目には,英語の関係抽出データに対してオントロジー形式のアノテーションを行った.関係抽出データとして,SemEval 2010タスク8のデータを対象とした.このデータは従来形式による関係アノテーションが付与されており,対象用語e1, e2に対して関係Rが有向グラフとして付与されており,この r→e1, r→e2の間にdomain, rangeの関係をアノテーションし,その効果を深層学習モデルにより検証した. 3年目には,各種実験を行い,論文をIF=4.3の論文誌に投稿した.本研究の新しい試みとして,交通教則の文を正規化し,省略部分に対する遠隔の関係づけを低減する修正を行った.アノテーションの見直しは時間のかかる地道な作業であり,目立った成果ではないが研究的な価値は高い.これに沿ったアノテーションガイドラインの整備も実施した. 本研究課題は3年計画であり2022年度で終了する計画であったが,コロナ禍の影響により実験や論文の作成は3年間で完了できたが,データを最終的に整備する作業に十分な時間をかけることができなかった.そこで特例措置に基づき1年間延長を認めていただき,2024年度にデータ整備を行った.
|