Research on multilingual data integration for digital archives of Japanese culture

Research Project

Project/Area Number	23K11780
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90020:Library and information science, humanistic and social informatics-related
Research Institution	Ritsumeikan University
Principal Investigator	前田亮立命館大学, 情報理工学部, 教授 (20351322)
Project Period (FY)	2023-04-01 – 2027-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2026: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords	多言語処理 / レコード同定 / 情報推薦 / 情報検索 / 固有表現抽出 / 多言語情報アクセス / マルチモーダル / 文字認識 / メタデータ
Outline of Research at the Start	本研究では，近年急速にディジタル化が進んでいる日本文化に関わる各種資料のディジタルアーカイブの統合利用を目的として，これらのディジタルアーカイブの多言語データ統合を実現し，これらに対する統合的な多言語情報アクセス環境の実現を目指す．具体的には，日本文化データベースの言語横断レコード同定技術，日本文化ディジタルアーカイブに対するマルチモーダル情報検索・推薦技術，蔵書印および落款印の文字認識に基づく資料間・収集者間の関係分析の各技術について研究を進める．
Outline of Annual Research Achievements	本年度は，日本文化に関わる各種資料のディジタルアーカイブ（以下DA）の多言語データ統合を実現する技術の開発に向けて，日本文化DAに対する言語横断レコード同定技術，日本文化DAに対する情報推薦技術，古典資料からの歴史人物情報の抽出の各技術について研究を行った．日本文化DAに対する言語横断レコード同定技術に関しては，映画など現代の文化資源データベースを対象とした言語横断レコード同定のために，人名の言語横断型マッチング手法について検討を行った．具体的には，アルファベット表記の人名をカタカナ表記に変換するための人名アライメントモデルを構築し，これを英語と日本語の映画作品の言語横断レコード同定に適用した．日本文化DAに対する情報推薦技術に関しては，将来的に文化資源の推薦にも応用可能な情報推薦技術の一つとして，利用者の嗜好情報とレビュー情報の特徴を融合したグラフ畳み込みニューラルネットワークに基づく協調フィルタリングによる情報推薦技術の研究を行った．また，非専門家を含む幅広い利用者が，浮世絵などの芸術作品の専門的な日本文化DAから自分の興味や嗜好に合った作品を発見することをサポートする手法の一つとして，絵画の画像および作品名テキストによるコンテンツベースの推薦技術と，利用者の嗜好に基づく協調フィルタリングベースの推薦技術を組み合わせた，マルチモーダルな芸術作品の情報推薦手法について研究を行った．古典資料からの歴史人物情報の抽出技術に関しては，日本の歴史人名辞典の解説文から，人物に関する様々な属性情報を抽出する手法について研究を行った．特に，学習データが少ないことを想定し，少数事例学習に基づく固有表現抽出技術を用いた手法を提案した．さらに，その活用例として，本手法により得られた人物間の家族関係を可視化する手法について基礎的な検討を行った．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究課題の目標である，日本文化DAの多言語データ統合を実現する技術の開発に向けて，ほぼ計画通りに研究を進めることができた．日本文化DAに対する言語横断レコード同定技術に関しては，日本人名のアルファベット表記とカタカナ表記の音訳を行うための，Transformerモデルに基づく人名アライメントモデルを構築した．日本語および英語で記述された映画データベースを利用して評価実験を行った結果，人名アライメントにおいて88.9%の正解率が得られた．また，本アライメントモデルによる人名のマッチングと映画ストーリーの類似度を用いた言語横断レコード同定の評価実験を行った結果，評価指標MRR（Mean Reciprocal Rank）において，0.8703の精度が得られた．日本文化DAに対する情報推薦技術に関しては，利用者の嗜好情報とレビュー情報の特徴を融合した情報推薦技術に関して，ユーザ・アイテムの嗜好情報とレビューテキストから得られる嗜好特徴を融合することで，複数のベースライン手法を上回る精度が得られた．また，絵画の画像および作品名テキストによるコンテンツベースの推薦技術と協調フィルタリングベースの推薦技術を組み合わせたマルチモーダルな芸術作品の情報推薦手法に関して，ニューラルトピックモデリングに基づく手法を提案した．芸術作品データセットを用いた評価実験を行った結果，複数のベースライン手法と比較して，多くの指標において上回る結果が得られた．古典資料からの歴史人物情報の抽出技術に関しては，芳賀矢一著『日本人名辞典』のディジタルテキストを用いて，職業，家族，生没年などの様々な人物属性情報を抽出する手法を提案した．評価実験の結果，提案手法である少数事例学習に基づく固有表現抽出技術が，歴史人物情報の抽出において有効であることを示した．
Strategy for Future Research Activity	次年度は，日本文化DAに対する言語横断レコード同定技術，日本文化DAに対する情報推薦技術，古典資料からの歴史人物情報の抽出の各技術について，以下の検討を行う．日本文化DAに対する言語横断レコード同定技術に関しては，これまで研究を行ってきた言語横断単語分散表現の精度を向上させるため，敵対的生成ネットワーク（Generative Adversarial Network: GAN）および正準相関分析（Canonical Correlation Analysis: CCA）を用いた手法を検討する．また，これを用いた言語横断レコード同定の評価実験を行う．日本文化DAに対する情報推薦技術に関しては，アクセスログに基づくユーザ間の嗜好の関連性を用いたクエリ推薦，日本文化資源に特化した大規模言語モデルのファインチューニング，作品画像の意味認識に基づくキーワード生成などの技術を用いることにより，マルチモーダル情報推薦手法の精度向上を図る．古典資料からの歴史人物情報の抽出技術に関しては，これまでに研究を進めてきた，固有表現抽出技術に基づく芳賀矢一著『日本人名辞典』および役者評判記テキストからの歴史人物情報の自動抽出手法を発展させ，日本文化資源に特化した大規模言語モデルに基づく固有表現抽出および関係抽出の技術を確立する．これにより，各種日本文化DAに含まれるテキストから，人名や地名，組織名などの固有表現を自動的に抽出し，さらにこれらの固有表現から対応する多言語百科事典などの項目への自動リンク生成を行う多言語エンティティリンキングの実現を目指す．

Report

(1 results)

2023 Research-status Report

Research Products
(5 results)

All 2024 2023

All Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 2 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Journal Article] MultArtRec: A Multimodal Neural Topic Modeling for Integrating Image and Text Features in Artwork Recommendation2024
- Author(s)
  Jiayun Wang, Akira Maeda, and Kyoji Kawagoe
- Journal Title
  
  Electronics
  
  Volume: 13 Issue: 2 Pages: 302-302
- DOI
  10.3390/electronics13020302
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] DEVELOPING A MULTIMODAL DATABASE OF DIGITAL ARCHIVES FOR CULTURAL HERITAGE SITES - A CASE OF DIGITALLY PRESERVING THE BOROBUDUR TEMPLE OF INDONESIA2023
- Author(s)
  Batjargal B.、Pan J.、Ji S.、Li L.、Yamaguchi H.、Hasegawa K.、Nishibayashi T.、Maeda A.、Sarjiati U.、Thufail F. I.、Tanaka S.、Brahmantara
- Journal Title
  
  The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences
  
  Volume: XLVIII-1/W2-2023 Pages: 713-720
- DOI
  10.5194/isprs-archives-xlviii-1-w2-2023-713-2023
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Presentation] Sentence Pair Augmentation Approach for Grammatical Error Correction2023
- Author(s)
  Ryoga Nagai and Akira Maeda
- Organizer
  Computational Intelligence for Engineering and Management Applications -- Select Proceedings of CIEMA 2022, Lecture Notes in Electrical Engineering 984
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 融合特徴に基づくグラフ畳み込みによる商品推薦手法2023
- Author(s)
  王兪歓, 前田亮
- Organizer
  WebDB夏のワークショップ2023
- Related Report
  2023 Research-status Report
[Presentation] MultArtRec: A Multimodal Neural Topic Model for Integrating Image and Textual Features in Artwork Recommendation2023
- Author(s)
  Jiayun Wang, Akira Maeda, and Kyoji Kawagoe
- Organizer
  WebDB夏のワークショップ2023
- Related Report
  2023 Research-status Report

Research on multilingual data integration for digital archives of Japanese culture

Principal Investigator

前田 亮 立命館大学, 情報理工学部, 教授 (20351322)

¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] MultArtRec: A Multimodal Neural Topic Modeling for Integrating Image and Text Features in Artwork Recommendation2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] DEVELOPING A MULTIMODAL DATABASE OF DIGITAL ARCHIVES FOR CULTURAL HERITAGE SITES - A CASE OF DIGITALLY PRESERVING THE BOROBUDUR TEMPLE OF INDONESIA2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] Sentence Pair Augmentation Approach for Grammatical Error Correction2023

Author(s)

Organizer

Related Report

[Presentation] 融合特徴に基づくグラフ畳み込みによる商品推薦手法2023

Author(s)

Organizer

Related Report

[Presentation] MultArtRec: A Multimodal Neural Topic Model for Integrating Image and Textual Features in Artwork Recommendation2023

Author(s)

Organizer

Related Report

前田亮立命館大学, 情報理工学部, 教授 (20351322)