研究課題/領域番号 |
23H03462
|
配分区分 | 補助金 |
研究機関 | 大阪電気通信大学 |
研究代表者 |
古崎 晃司 大阪電気通信大学, 情報通信工学部, 教授 (00362624)
|
研究分担者 |
竹内 和広 大阪電気通信大学, 情報通信工学部, 教授 (20440951)
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
熊澤 輝一 総合地球環境学研究所, 研究基盤国際センター, 准教授 (90464239)
|
研究期間 (年度) |
2023-04-01 – 2028-03-31
|
キーワード | 知識グラフ / オントロジー / コンテキスト / 知識グラフ構築 / オントロジー工学 / 大規模言語モデル |
研究実績の概要 |
本年度は,入力されたテキスト文書から知識グラフを構成するエンティティとなる用語を抽出し,大規模汎用LODであるWikidataとマッピングする「エンティティ・リンキング」の手法を開発した. 本手法においてテキストからの用語抽出には,形態素解析器sudachiを利用して日本語テキストから単語を切り出し,その出力結果の組み合わせを,Wikidataに登録されているエンティティと比較することで,複合語を含めた対応が出来る仕組みを導入した.その上で,抽出した用語とWikidataのエンティティに紐づけられている名称および別名を比較することで,マッピングを行う.その際に,Wikidataが持つ知識グラフの構造を利用することで,マッピング対処とするエンティティの選別を行うことができる仕組みを開発した.現状では,Wikidataに含まれる分類階層を利用することで,マッピング対象とする用語の分類を制御している.その結果,Wikipediaの日本語版の記事から作成したマッピング情報を用いた評価実験において,約65%の再現率を得た. また,大規模言語モデルを利用したオントロジーの自動構築手法のプロトタイプとして,OpenAI社が提供しているChatGPTのAPIを利用した,オントロジー自動構築ツールを開発した.このツールでは,構築対象とするオントロジーの最上位の概念名を入力することで,ChatGPTに対するゼロショットのプロンプトを用いて概念のis-a(上位-下位)関係を再帰的に取得してis-a階層を構築し,得られたis-a階層を構成する概念が持つpart-of(全体-部分)関係およびattribute-of(属性)関係についても合わせて取得する.その結果,初期的なオントロジーの構築が容易に行え,初期の評価実験では約70-90%の構造が適切と評価された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初計画していた大規模LODとのマッピング(エンティティ・リンキング)の手法については,今後の性能改善の余地があるものの基本的な機能を実現した初期版が開発できた. その点に加え,2年目以降の実施を予定していた大規模言語モデルを用いたオントロジー構築手法についても初期的なプロトタイプが完成し,いくつかの対象を選定したオントロジー自動構築の初期的な評価が行えた. いずれも,本格的な性能評価を行った上で,改良方針の検討が必要ではあるが,全体としては当初の計画よりも試作版の完成の時期がやや早まっている点から,研究の進展はおおむね順調であるといえる.
|
今後の研究の推進方策 |
大規模LODとのマッピング(エンティティ・リンキング)の手法,および,大規模言語モデルを用いたオントロジー構築手法について,それぞれの初期版が完成したことから,今後はまず,各手法のより詳細な性能評価を行い,その結果を元に手法の改良方針を検討する. 具体的には,エンティティ・リンキングの手法については,Wikidataの分類階層を用いた制御をより精緻なものにする方法を検討すると共に,分類階層以外のグラフ構造の利用を検討する. また,大規模言語モデルを用いたオントロジー構築手法については,これまで小規模な例で試作したオントロジーに対するユーザ評価の対象を拡大すると共に,既存のオントロジーを用いた定量的評価についても検討する.
|