Automatic Methods for Knowledge Graph Construction using Ontology-based Context Management
Project/Area Number |
23K28152
|
Project/Area Number (Other) |
23H03462 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
Basic Section 60030:Statistical science-related
Sections That Are Subject to Joint Review: Basic Section60030:Statistical science-related , Basic Section61030:Intelligent informatics-related
|
Research Institution | Osaka Electro-Communication University |
Principal Investigator |
古崎 晃司 大阪電気通信大学, 情報通信工学部, 教授 (00362624)
|
Co-Investigator(Kenkyū-buntansha) |
竹内 和広 大阪電気通信大学, 情報通信工学部, 教授 (20440951)
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
熊澤 輝一 大阪経済大学, 国際共創学部, 教授 (90464239)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,070,000 (Direct Cost: ¥13,900,000、Indirect Cost: ¥4,170,000)
Fiscal Year 2027: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Fiscal Year 2026: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2025: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2024: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2023: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
|
Keywords | 知識グラフ / オントロジー / コンテキスト / 知識グラフ構築 / オントロジー工学 / 大規模言語モデル |
Outline of Research at the Start |
本研究では,知識型AIの知識基盤として広く用いられている「知識グラフ」を自動構築する手法を開発する. 知識グラフの構築には,自然言語処理や機械学習を用いた手法が多く用いられているが,十分な学習データが必要とされるため,専門領域の知識グラフの新規構築には適用が難しい.この問題を解決するために,本研究では,大規模かつオープンな知識グラフから,必要なコンテキストに応じた知識を抽出し,自然言語処理や機械学習などのデータ駆動型の手法と適切に融合させる. 開発した手法は,初学者でも簡単に使えるソフトウェアの形で公開することで「誰でも簡単に,知識グラフを構築して,使ってみることができる」環境を提供する.
|
Outline of Annual Research Achievements |
本年度は,入力されたテキスト文書から知識グラフを構成するエンティティとなる用語を抽出し,大規模汎用LODであるWikidataとマッピングする「エンティティ・リンキング」の手法を開発した. 本手法においてテキストからの用語抽出には,形態素解析器sudachiを利用して日本語テキストから単語を切り出し,その出力結果の組み合わせを,Wikidataに登録されているエンティティと比較することで,複合語を含めた対応が出来る仕組みを導入した.その上で,抽出した用語とWikidataのエンティティに紐づけられている名称および別名を比較することで,マッピングを行う.その際に,Wikidataが持つ知識グラフの構造を利用することで,マッピング対処とするエンティティの選別を行うことができる仕組みを開発した.現状では,Wikidataに含まれる分類階層を利用することで,マッピング対象とする用語の分類を制御している.その結果,Wikipediaの日本語版の記事から作成したマッピング情報を用いた評価実験において,約65%の再現率を得た. また,大規模言語モデルを利用したオントロジーの自動構築手法のプロトタイプとして,OpenAI社が提供しているChatGPTのAPIを利用した,オントロジー自動構築ツールを開発した.このツールでは,構築対象とするオントロジーの最上位の概念名を入力することで,ChatGPTに対するゼロショットのプロンプトを用いて概念のis-a(上位-下位)関係を再帰的に取得してis-a階層を構築し,得られたis-a階層を構成する概念が持つpart-of(全体-部分)関係およびattribute-of(属性)関係についても合わせて取得する.その結果,初期的なオントロジーの構築が容易に行え,初期の評価実験では約70-90%の構造が適切と評価された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画していた大規模LODとのマッピング(エンティティ・リンキング)の手法については,今後の性能改善の余地があるものの基本的な機能を実現した初期版が開発できた. その点に加え,2年目以降の実施を予定していた大規模言語モデルを用いたオントロジー構築手法についても初期的なプロトタイプが完成し,いくつかの対象を選定したオントロジー自動構築の初期的な評価が行えた. いずれも,本格的な性能評価を行った上で,改良方針の検討が必要ではあるが,全体としては当初の計画よりも試作版の完成の時期がやや早まっている点から,研究の進展はおおむね順調であるといえる.
|
Strategy for Future Research Activity |
大規模LODとのマッピング(エンティティ・リンキング)の手法,および,大規模言語モデルを用いたオントロジー構築手法について,それぞれの初期版が完成したことから,今後はまず,各手法のより詳細な性能評価を行い,その結果を元に手法の改良方針を検討する. 具体的には,エンティティ・リンキングの手法については,Wikidataの分類階層を用いた制御をより精緻なものにする方法を検討すると共に,分類階層以外のグラフ構造の利用を検討する. また,大規模言語モデルを用いたオントロジー構築手法については,これまで小規模な例で試作したオントロジーに対するユーザ評価の対象を拡大すると共に,既存のオントロジーを用いた定量的評価についても検討する.
|
Report
(1 results)
Research Products
(4 results)