研究課題/領域番号 |
23K11237
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 豊田工業大学 |
研究代表者 |
佐々木 裕 豊田工業大学, 工学(系)研究科(研究院), 教授 (60395019)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2024年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | オントロジー / 関係抽出 / 情報抽出 / オントロジー形式 / イベント条件認識 / 深層情報抽出 / オントロジー型アノテーション / オントロジー表現学習 / オントロジー抽出 |
研究開始時の研究の概要 |
本研究では,オントロジー型のアノテーションを知識ベース(オントロジー)に変換する深層学習手法を確立する.また,構築されたオントロジー上でのグラフ表現学習の効果についても検証する.2023年度は,オントロジー形式のアノテーションからオントロジーに変換した結果のサンプルを手作業で作成し,今後の学習・テストデータとする.2024年度は,オントロジーを構築するシステムを作成するとともに,オントロジー上での埋め込みベクトルの学習手法について検討し,評価実験を行う.2025年度は深層学習手法により,オントロジー形式のアノテーション結果をオントロジーに変換する性能を評価する.
|
研究実績の概要 |
これまでのオントロジー形式のアノテーションに関する研究を経て,アノテーションされた文からオントロジーの構成要素を抽出するためには大きな課題があることに直面した.オントロジー形式によるアノテーションを行うことで,文書情報とオントロジーの間のリンクは明確になったが,文書情報をオントロジーに変換するためには,文書中に書かれた様々な関係やイベント表現を齟齬なく統合する必要がある. たとえば,「大型貨物自動車の法定速度は90キロ」という文に含まれる用語「大型貨物自動車(LargeFreightCar)」と「90キロ(90km/h)」の間に「法定速度(Speed)」という関係が成立することを自動認識できたとしても,LargeFreighCarのSpeedが90km/hであるという関係を一般的な関係としてオントロジーに登録して良いかどうかは自明ではない.この場合は高速道路においてある条件で成立する.そのため,domain, rangeを用語のクラスに接続してよいのか,用語に対応するオントロジーノードに接続してよいのか,IDに接続するべきなのか,どのような制約を付与するかは文脈に応じて判定しなければならない. 本研究は, 2023年度~2025年度の3年間で段階的に実施する計画であり,2023年度は,オントロジー形式のアノテーションをオントロジーに変換した結果のサンプルを手作業で作成し,今後の学習・テストデータとした.手作業で変換することで問題の所在や難しさを理解することを目標とした.その中で,交通に関する文書中に現れるイベント(=動作などにより状態変化を伴うもの)の条件を抽出する研究がまず第1段階として必要であることが洗い出され,イベントの発生条件に関する研究を実施した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2023年度の進捗は以下の3点である.(1)イベントとそのテキスト内の条件の言及を紐づけることで,イベントの発生条件を明確にするアノテーションを提案し,高い一致率を達成可能なアノテーション基準を設計した.(2)交通に関するコーパスOSR-RoR の「Driver」の用語タイプを主語としたイベントを対象にイベントの発生条件をタグ付けしたデータセットを作成した.(3)イベントの発生条件の抽出を自動化するため,イベントに対してそのテキスト内の条件の言及を検出する手法を提案したが,予測性能は低い結果となった. データセット作成の作成手順は以下の通り.(1)対象イベントを起こせる条件となる他のイベント,もしくは,時間,場所,天候などを意味する名詞句を同じ段落内のテキストから見つける.(2)条件を言及している他のイベントを含む句や名詞句に条件タグを付与する.ただし,イベントを含む句には直接の項や修飾語を含める.(3)対象のイベントから条件タグに向かって紐付ける. 独自に構築したデータセットを用いて BERT で条件を学習し,テストデータについて条件の言及を予測できるか評価した.発生条件を付与をした交通教則のうち,1 章から 5 章までを訓練データ,6 章から 7 章までを開発データ,8 章から 11 章までをテストデータとした.BERT には,日本語に対応したBERTを使用した.評価尺度にはF値を用い,入力文よりも前の文に出現する検出できない条件の言及を全て負例として扱った.条件検出の結果,開発データでは 39.3%,テストデータでは 23.0%となり,開発データのスコアに対してテストの結果が低くなり,2年目以降においてイベント発生条件の認識手法の改善が課題であることを明らかになった.このような結果は,今回独自データを作成して始めて確認できたことであり学術に新しい知見と言える.
|
今後の研究の推進方策 |
2024年度は,オントロジーを構築するシステムを作成するとともに,オントロジー上での埋め込みベクトルの学習手法について検討し評価実験を行う.2023年度にイベントの発生条件の認識に取り組み,その難しさが判明したことから,本研究課題を提案したときには存在しなかったLlaMA 3などの大規模言語モデルなどの最新の技術を用いて対応していく必要がある.また,知識グラフなど背景知識をグラフ構造で表現し,グラフ構造上での表現学習を行うことで,背景知識を文書解析に用いる研究も盛んに行われていることから,オントロジーを知識グラフとして見たときにどのように利用できるのかについて研究分野全体の動向に合わせて研究を進めて行く. 3年計画の最終年度である2025年度は,その時点での最新の深層学習手法により,オントロジー形式のアノテーション結果をオントロジーに変換する性能を評価する.困難な対象問題を扱っているためすべての問題は解決できないが,特に,テキストデータに自動アノテーションし,その結果からオントロジープロトタイプを構築するまでのEnd-to-Endの性能について検証する.また,研究的な進捗状況によっては,オントロジーの埋め込みベクトル学習までEnd-to-Endで実施する.オントロジー形式のアノテーションでは,関係用語が文中で指定されているため,用語を対応するオントロジーノード(Propertyノード)のグラウンディングと見做すことができる.オントロジー上のノードやリンクにベクトルを割り当てることで,柔軟で予測性能の高いオントロジーの精錬や拡張ができる可能性がある. 本研究では研究の進捗によっては,その効果を最新の深層学習を用いた実験により検証することも目的としている.
|