2022 Fiscal Year Annual Research Report

巨大知識グラフに対するクエリ検索の近似的な高速化

Research Project

Project/Area Number	21H03491
Research Institution	Hokkaido University
Principal Investigator	林克彦北海道大学, 情報科学研究院, 准教授 (50725794)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	知識グラフ / 表現学習 / マルチメディアデータベース
Outline of Annual Research Achievements	本研究の目的は知識グラフに代表される巨大データベースから高速に情報を検索するための技術開発、および、その応用先となる基盤データの整備を行うことにある。21年度は技術開発として、知識グラフを潜在的な特徴空間に埋め込み、知識を高速に検索するための手法を開発し、この成果がIEEE TKDE、および、自然言語処理分野のトップ国際会議ACL21に採録された。 22年度は、ACL21で発表した手法を効果的に学習するための損失関数に関する研究を進め、その内容が機械学習分野のトップ国際会議ICML22に採録された。さらに、21年度から進めていたマルチメディアデータベースの整備として、漫画の読み順データセット、漫画キャラクタのヴィジュアルエンティティリンキングデータセットなどの構築を進めた。この成果の一部は2023年3月開催の情報処理学会・第67回EC研究会で発表している。作成したデータセットの一部はgithubページ https://github.com/mu-perori/Manga109_AnnotationApp で公開済みとなっている。また、この成果の一部は、ITMedia NEWSに取り上げられ、約12のウェブニュースサイトで報道された。 22年度は、マルチメディアデータベースの整備の一環として、知識を用いた画像生成（あるいは逆の画像から知識データベースの生成）に関わるデータセットをWikipediaから構築にも取り組んだ。この成果は2023年3月開催の言語処理学会第29回年次大会で発表し、委員特別賞を受賞した。さらに国際会議ACL23へも投稿済みである。Wikipediaの活用については、編集者情報を利用した文書類似度推定法を考案し、同様の2023年3月開催の言語処理学会第29回年次大会にて、スポンサー賞（LINE株式会社）を受賞した（ARG WI2研究会でも受賞）。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason ChatGPTやGPT-4などの大規模言語モデルによる対話型アプリケーションが登場し、分野における質問応答システムに関する状況が一変した。そのため、当初計画していた自然言語処理による質問応答インタフェースに関する研究は、大幅な見直しが必要となっている。一方で、本課題の開始当初から既存のデータベースに対する自然言語処理パーザの研究は見直しを検討してきており、マンガ等のマルチメディアデータベースの作成に方向転換を行っている。この方向転換により、現状の大規模言語モデルによるアプローチでは対応が未だ困難な領域に研究を進めることができており、研究自体は概ね順調に進行している。
Strategy for Future Research Activity	潜在ベクトル空間上での情報検索に関する研究は順調に遂行できており、国際論文誌や国際会議への採択、受賞といった成果につながっている。次年度はこの成果をマルチメディアデータベースへと接地する応用方面での研究を行う。特に、着手するのは「画像」を扱ったデータベースへの接地である。1つはWikipedia等の知識データベースにおけるエンティティに対して画像も取得し、画像に写った固有表現までを認識するビジュアルエンティティリンキングタスクを考える。これは当初計画していた自然言語によるデータベースへの問い合わせではなく、画像による問い合わせを行うものである。この設定が従来の画像検索とは異なる点として、背景にある知識データベースを潜在ベクトル空間上で表現することで、深層学習による画像認識問題へ知識の情報を組み込むことが可能である点にある。具体的には、知識側で学習されたエンティティの潜在ベクトル表現を教師信号として利用することが考えられる。さらに、これまで整備を続けてきたマンガのデータセットにおいても、キャラクタをエンティティとしたビジュアルエンティティリンキングタスクを実施することも予定している。上記成果の一部は、既に国際会議ACL23へ投稿済みとなっている。また、Wikipediaの知識情報を活用した検索手法に関する研究2件が、2023年4月中旬にWikimedia財団が主催するWiki Workshopに採択されており、国際発表を行う予定である。他にも、マンガのビジュアルエンティティリンキングに関する研究は国内研究会での発表を計画している、など知識と画像を絡めたマルチメディアデータベース検索に関する成果を国内・国際的に随時発表していく予定である。

Research Products
(11 results)

All 2023 2022 Other

All Int'l Joint Research (1 results) Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (9 results) (of which Int'l Joint Research: 2 results)

[Int'l Joint Research] the university of massachusetts amherst(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  the university of massachusetts amherst
[Journal Article] Binarized Embeddings for Fast, Space-Efficient Knowledge Graph Completion2023
- Author(s)
  Hayashi Katsuhiko、Kishimoto Koki、Shimbo Masashi
- Journal Title
  
  IEEE Transactions on Knowledge and Data Engineering
  
  Volume: 35 Pages: 141 - 153
- DOI
  10.1109/TKDE.2021.3075070
- Peer Reviewed / Open Access
[Presentation] Wikipedia協調フィルタリング法2023
- Author(s)
  竹内皓紀、林克彦
- Organizer
  言語処理学会第29回年次大会
[Presentation] 服飾の色情報に基づいたポエティックな商品名の作成支援システム2023
- Author(s)
  飯塚柚稀、林克彦、永野清仁、宮尾祐介
- Organizer
  言語処理学会第29回年次大会
[Presentation] 視覚と言語の融合モデルにおける知識の振る舞いを調査するための表と画像の生成タスクの提案及びその調査結果2023
- Author(s)
  上垣外英剛、林克彦、渡辺太郎
- Organizer
  言語処理学会第29回年次大会
[Presentation] 知識グラフ補完のためのモデル予測に基づくサブサンプリング2023
- Author(s)
  Xincan Feng、上垣外英剛、林克彦、渡辺太郎
- Organizer
  言語処理学会第29回年次大会
[Presentation] マンガのコマ割りのみから作品分類は可能か?2023
- Author(s)
  吉永瑛哉、林克彦、鷲尾光樹、上垣外英剛、新保仁
- Organizer
  情報処理学会第67回エンターテイメントコンピューティング研究会
[Presentation] マンガの読み順評価データセットの開発2023
- Author(s)
  上原瑞歩、倉石怜実、林克彦、鷲尾光樹、上垣外英剛
- Organizer
  情報処理学会第67回エンターテイメントコンピューティング研究会
[Presentation] Rethinking correlation-based item-item similarity for recommender systems2022
- Author(s)
  Katsuhiko Hayashi
- Organizer
  Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval
- Int'l Joint Research
[Presentation] Comprehensive analysis of negative sampling in knowledge graph representation learning2022
- Author(s)
  Hidetaka Kamigaito、Katsuhiko Hayashi
- Organizer
  Proceedings of the 39th International Conference on Machine Learning
- Int'l Joint Research
[Presentation] Wikipedia編集者情報を用いた協調フィルタリングによるエンティティ類似度推定2022
- Author(s)
  竹内皓紀、林克彦
- Organizer
  第18回Webインテリジェンスとインタラクション研究会

2022 Fiscal Year Annual Research Report

巨大知識グラフに対するクエリ検索の近似的な高速化

Principal Investigator

林 克彦 北海道大学, 情報科学研究院, 准教授 (50725794)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] the university of massachusetts amherst(米国)

Country Name

Counterpart Institution

[Journal Article] Binarized Embeddings for Fast, Space-Efficient Knowledge Graph Completion2023

Author(s)

Journal Title

DOI

[Presentation] Wikipedia協調フィルタリング法2023

Author(s)

Organizer

[Presentation] 服飾の色情報に基づいた ポエティックな商品名の作成支援システム2023

Author(s)

Organizer

[Presentation] 視覚と言語の融合モデルにおける知識の振る舞いを調査するための表と画像の生成タスクの提案及びその調査結果2023

Author(s)

Organizer

[Presentation] 知識グラフ補完のためのモデル予測に基づくサブサンプリング2023

Author(s)

Organizer

[Presentation] マンガのコマ割りのみから作品分類は可能か?2023

Author(s)

Organizer

[Presentation] マンガの読み順評価データセットの開発2023

Author(s)

Organizer

[Presentation] Rethinking correlation-based item-item similarity for recommender systems2022

Author(s)

Organizer

[Presentation] Comprehensive analysis of negative sampling in knowledge graph representation learning2022

Author(s)

Organizer

[Presentation] Wikipedia編集者情報を用いた協調フィルタリングによるエンティティ類似度推定2022

Author(s)

Organizer

林克彦北海道大学, 情報科学研究院, 准教授 (50725794)

[Presentation] 服飾の色情報に基づいたポエティックな商品名の作成支援システム2023