巨大知識グラフに対するクエリ検索の近似的な高速化

研究課題

研究課題/領域番号	21H03491
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	北海道大学 (2022-2023) 群馬大学 (2021)
研究代表者	林克彦北海道大学, 情報科学研究院, 准教授 (50725794)
研究分担者	能地宏国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (00782541)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	9,360千円 (直接経費: 7,200千円、間接経費: 2,160千円) 2023年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円) 2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円) 2021年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
キーワード	知識グラフ / 確率計算 / メディアデータ / データベース / 表現学習 / マルチメディアデータベース / 情報検索 / テンソル分解 / 意味解析 / 質問応答
研究開始時の研究の概要	本研究では、巨大知識グラフに対する確率の導入方法を捉えなおし、メモリの効率性に優れ、高度なクエリ検索を可能にする確率関係データベースの構成方法について考える。根幹となるアイデアは、多項関係の事実を単項関係へと近似的に分解することにある。特に、テンソルに対する新たな分解計算モデルの開発、確率関係データベースに対するクエリ検索エンジンの開発、を行う。さらに、その実用化に向けて、質問文をクエリ化するパーザの開発、を並行し、最終年度には、自然言語による知識グラフ検索システムの試験的な運用にも着手する。
研究実績の概要	本研究の目的は知識グラフに代表される巨大データベースから高速に情報を検索するための技術開発、および、その応用先となる基盤データの整備を行うことにある。21年度は技術開発として、知識グラフを潜在的な特徴空間に埋め込み、知識を高速に検索するための手法を開発し、この成果がIEEE TKDE、および、自然言語処理分野のトップ国際会議ACL21に採録された。 22年度は、ACL21で発表した手法を効果的に学習するための損失関数に関する研究を進め、その内容が機械学習分野のトップ国際会議ICML22に採録された。さらに、21年度から進めていたマルチメディアデータベースの整備として、漫画の読み順データセット、漫画キャラクタのヴィジュアルエンティティリンキングデータセットなどの構築を進めた。この成果の一部は2023年3月開催の情報処理学会・第67回EC研究会で発表している。作成したデータセットの一部はgithubページ https://github.com/mu-perori/Manga109_AnnotationApp で公開済みとなっている。また、この成果の一部は、ITMedia NEWSに取り上げられ、約12のウェブニュースサイトで報道された。 22年度は、マルチメディアデータベースの整備の一環として、知識を用いた画像生成（あるいは逆の画像から知識データベースの生成）に関わるデータセットをWikipediaから構築にも取り組んだ。この成果は2023年3月開催の言語処理学会第29回年次大会で発表し、委員特別賞を受賞した。さらに国際会議ACL23へも投稿済みである。Wikipediaの活用については、編集者情報を利用した文書類似度推定法を考案し、同様の2023年3月開催の言語処理学会第29回年次大会にて、スポンサー賞（LINE株式会社）を受賞した（ARG WI2研究会でも受賞）。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 ChatGPTやGPT-4などの大規模言語モデルによる対話型アプリケーションが登場し、分野における質問応答システムに関する状況が一変した。そのため、当初計画していた自然言語処理による質問応答インタフェースに関する研究は、大幅な見直しが必要となっている。一方で、本課題の開始当初から既存のデータベースに対する自然言語処理パーザの研究は見直しを検討してきており、マンガ等のマルチメディアデータベースの作成に方向転換を行っている。この方向転換により、現状の大規模言語モデルによるアプローチでは対応が未だ困難な領域に研究を進めることができており、研究自体は概ね順調に進行している。
今後の研究の推進方策	潜在ベクトル空間上での情報検索に関する研究は順調に遂行できており、国際論文誌や国際会議への採択、受賞といった成果につながっている。次年度はこの成果をマルチメディアデータベースへと接地する応用方面での研究を行う。特に、着手するのは「画像」を扱ったデータベースへの接地である。1つはWikipedia等の知識データベースにおけるエンティティに対して画像も取得し、画像に写った固有表現までを認識するビジュアルエンティティリンキングタスクを考える。これは当初計画していた自然言語によるデータベースへの問い合わせではなく、画像による問い合わせを行うものである。この設定が従来の画像検索とは異なる点として、背景にある知識データベースを潜在ベクトル空間上で表現することで、深層学習による画像認識問題へ知識の情報を組み込むことが可能である点にある。具体的には、知識側で学習されたエンティティの潜在ベクトル表現を教師信号として利用することが考えられる。さらに、これまで整備を続けてきたマンガのデータセットにおいても、キャラクタをエンティティとしたビジュアルエンティティリンキングタスクを実施することも予定している。上記成果の一部は、既に国際会議ACL23へ投稿済みとなっている。また、Wikipediaの知識情報を活用した検索手法に関する研究2件が、2023年4月中旬にWikimedia財団が主催するWiki Workshopに採択されており、国際発表を行う予定である。他にも、マンガのビジュアルエンティティリンキングに関する研究は国内研究会での発表を計画している、など知識と画像を絡めたマルチメディアデータベース検索に関する成果を国内・国際的に随時発表していく予定である。

報告書

(2件)

2022 実績報告書
2021 実績報告書

研究成果

(14件)

すべて 2023 2022 2021 その他

すべて国際共同研究 (1件) 雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (12件) (うち国際学会 3件)

[国際共同研究] the university of massachusetts amherst(米国)
- 関連する報告書
  2022 実績報告書
[雑誌論文] Binarized Embeddings for Fast, Space-Efficient Knowledge Graph Completion2021
- 著者名/発表者名
  Katsuhiko Hayashi、Koki Kishimoto、Masashi Shimbo
- 雑誌名
  
  IEEE Transactions on Knowledge and Data Engineering
  
  巻: -- ページ: 1-13
- DOI
  10.1109/tkde.2021.3075070
- 関連する報告書
  2022 実績報告書 2021 実績報告書
- 査読あり / オープンアクセス
[学会発表] Wikipedia協調フィルタリング法2023
- 著者名/発表者名
  竹内皓紀、林克彦
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 服飾の色情報に基づいたポエティックな商品名の作成支援システム2023
- 著者名/発表者名
  飯塚柚稀、林克彦、永野清仁、宮尾祐介
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 視覚と言語の融合モデルにおける知識の振る舞いを調査するための表と画像の生成タスクの提案及びその調査結果2023
- 著者名/発表者名
  上垣外英剛、林克彦、渡辺太郎
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] 知識グラフ補完のためのモデル予測に基づくサブサンプリング2023
- 著者名/発表者名
  Xincan Feng、上垣外英剛、林克彦、渡辺太郎
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実績報告書
[学会発表] マンガのコマ割りのみから作品分類は可能か?2023
- 著者名/発表者名
  吉永瑛哉、林克彦、鷲尾光樹、上垣外英剛、新保仁
- 学会等名
  情報処理学会第67回エンターテイメントコンピューティング研究会
- 関連する報告書
  2022 実績報告書
[学会発表] マンガの読み順評価データセットの開発2023
- 著者名/発表者名
  上原瑞歩、倉石怜実、林克彦、鷲尾光樹、上垣外英剛
- 学会等名
  情報処理学会第67回エンターテイメントコンピューティング研究会
- 関連する報告書
  2022 実績報告書
[学会発表] Rethinking correlation-based item-item similarity for recommender systems2022
- 著者名/発表者名
  Katsuhiko Hayashi
- 学会等名
  Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Comprehensive analysis of negative sampling in knowledge graph representation learning2022
- 著者名/発表者名
  Hidetaka Kamigaito、Katsuhiko Hayashi
- 学会等名
  Proceedings of the 39th International Conference on Machine Learning
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Wikipedia編集者情報を用いた協調フィルタリングによるエンティティ類似度推定2022
- 著者名/発表者名
  竹内皓紀、林克彦
- 学会等名
  第18回Webインテリジェンスとインタラクション研究会
- 関連する報告書
  2022 実績報告書
[学会発表] 知識グラフ埋め込みにおける負例サンプリング損失の分析2022
- 著者名/発表者名
  上垣外英剛, 林克彦
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実績報告書
[学会発表] Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding2021
- 著者名/発表者名
  Hidetaka Kamigaito, Katsuhiko Hayashi
- 学会等名
  In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] 漫画の読み順データセット公開に向けた調査2021
- 著者名/発表者名
  上原瑞歩, 鷲尾光樹, 林克彦, 上垣外英剛, 木曽鉄男, 小田悠介
- 学会等名
  第6回コミック工学研究会
- 関連する報告書
  2021 実績報告書

巨大知識グラフに対するクエリ検索の近似的な高速化

研究代表者

林 克彦 北海道大学, 情報科学研究院, 准教授 (50725794)

9,360千円 (直接経費: 7,200千円、間接経費: 2,160千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] the university of massachusetts amherst(米国)

関連する報告書

[雑誌論文] Binarized Embeddings for Fast, Space-Efficient Knowledge Graph Completion2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Wikipedia協調フィルタリング法2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 服飾の色情報に基づいた ポエティックな商品名の作成支援システム2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 視覚と言語の融合モデルにおける知識の振る舞いを調査するための表と画像の生成タスクの提案及びその調査結果2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 知識グラフ補完のためのモデル予測に基づくサブサンプリング2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] マンガのコマ割りのみから作品分類は可能か?2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] マンガの読み順評価データセットの開発2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Rethinking correlation-based item-item similarity for recommender systems2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Comprehensive analysis of negative sampling in knowledge graph representation learning2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Wikipedia編集者情報を用いた協調フィルタリングによるエンティティ類似度推定2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 知識グラフ埋め込みにおける負例サンプリング損失の分析2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 漫画の読み順データセット公開に向けた調査2021

著者名/発表者名

学会等名

関連する報告書

林克彦北海道大学, 情報科学研究院, 准教授 (50725794)

[学会発表] 服飾の色情報に基づいたポエティックな商品名の作成支援システム2023