• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Research on multilingual data integration for digital archives of Japanese culture

Research Project

Project/Area Number 23K11780
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 90020:Library and information science, humanistic and social informatics-related
Research InstitutionRitsumeikan University

Principal Investigator

前田 亮  立命館大学, 情報理工学部, 教授 (20351322)

Project Period (FY) 2023-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2026: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords多言語処理 / 固有表現認識 / BERT / マルチモーダル / レコード同定 / 情報推薦 / 情報検索 / 固有表現抽出 / 多言語情報アクセス / 文字認識 / メタデータ
Outline of Research at the Start

本研究では,近年急速にディジタル化が進んでいる日本文化に関わる各種資料のディジタルアーカイブの統合利用を目的として,これらのディジタルアーカイブの多言語データ統合を実現し,これらに対する統合的な多言語情報アクセス環境の実現を目指す.具体的には,日本文化データベースの言語横断レコード同定技術,日本文化ディジタルアーカイブに対するマルチモーダル情報検索・推薦技術,蔵書印および落款印の文字認識に基づく資料間・収集者間の関係分析の各技術について研究を進める.

Outline of Annual Research Achievements

本年度は,日本文化に関わる各種資料のディジタルアーカイブの多言語データ統合を実現する技術の開発に向けて,各種古典資料からの固有表現認識技術について研究を行った.
まず,浮世絵作品名からの固有表現認識の研究を行った.立命館大学アート・リサーチセンターの浮世絵・日本絵画ポータルデータベースが公開している浮世絵作品のうち,2,160件の名所絵・役者絵・相撲絵を抽出し,それらの作品名に含まれる地名・人名・組織・出来事の4種類の固有表現についてアノテーションを行うことで,固有表現認識のためのデータセットを構築した.これを用いて,日本語BERTモデルおよびその派生モデル(RoBERTa,XLNet,LUKE,ALBERT,DeBERTa)にCRFを組み合わせた手法により,浮世絵作品名からの固有表現認識精度の評価実験を行った.
次に,歌舞伎役者の芸評書である役者評判記の本文テキストからの固有表現認識の研究を行った.『役者多名卸(江戸の巻)』および『役者多名卸(京の巻)』のテキストから,役者名・替名(役名),座本(劇場名),位付(評価)の4種類の固有表現についてアノテーションを行うことで,固有表現認識のためのデータセットを構築した.これを用いて,文字ベースの日本語BERTモデルに基づく手法により,役者評判記テキストからの固有表現認識精度の評価実験を行った.
さらに,浮世絵作品名の固有表現認識において,同作品の浮世絵画像の情報を活用したマルチモーダル手法の研究を行った.1,000件の浮世絵作品名および画像のデータセットを用いて,作品名テキストに日本語BERTモデルを用い,浮世絵画像にResNetを用いたマルチモーダルTransformerに基づく手法により,浮世絵作品名からのマルチモーダル固有表現認識精度の評価実験を行った.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究課題の目標である,日本文化ディジタルアーカイブの多言語データ統合を実現する技術の開発に向けて,ほぼ計画通りに研究を進めることができた.
まず,浮世絵作品名からの固有表現認識の研究については,複数のBERTの派生モデルの比較実験を行った結果,日本語BERT-largeモデルにCRFを組み合わせたモデルにおいて,F値で0.83と最高の精度が得られた.また,単語ベースと文字ベースのBERTモデルの比較を行ったが,精度に大きな違いは見られなかった.固有表現の種類別では,人名がF値0.93と最も高い精度であり,組織名がF値0.40と最も低い精度であった.精度に向上の余地はあるものの,浮世絵作品名の翻訳などに有用である固有表現認識が概ね実用的な精度で行えることが明らかになった.
次に,歌舞伎役者の芸評書である役者評判記の本文テキストからの固有表現認識の研究については,ベースラインとして使用したBiLSTM-CRFモデルと比較して,現代日本語BERTモデルがF値の平均において約9%高い0.86の精度が得られた.固有表現の種類別では,座本と位付においてF値0.98と非常に高い精度であった.一方で,替名(役名)はF値0.55と比較的低い精度であった.浮世絵作品名と同様に,精度に向上の余地はあるものの,概ね実用的な精度であると考えられる.
さらに,浮世絵作品の浮世絵画像の情報を活用したマルチモーダル手法の研究については,F値の平均で約5%の向上が得られた.特に,役者名と替名(役名)において精度が大きく向上した.画像情報を用いることで,浮世絵作品名の固有表現認識精度が大幅に向上することが明らかになった.

Strategy for Future Research Activity

次年度は,日本文化ディジタルアーカイブに対する固有表現認識技術について,以下の検討を行う.
まず,浮世絵作品名の固有表現認識において,特にこれまでの実験で比較的精度が低かった地名・組織名・出来事について,データセットの拡大や手法の改良により,精度の向上を目指す.また,作品画像を用いたマルチモーダル固有表現認識において,テキスト中の各固有表現に対応する画像内の領域を特定するタスクである根拠付きマルチモーダル固有表現認識(Grounded Multimodal Named Entity Recognition)に拡張することで,テキスト中の固有表現認識に留まらない,より広範な浮世絵分析へ応用の実現を目指す.
また,役者評判記のテキスト分析においては,これまでの固有表現認識に加えて,固有表現間の関係を識別する関係抽出タスクへの発展を図る.具体的には,役者間の襲名関係,役者と地名の別名関係,役者名・役柄・替名の替名関係,役者名・位付・評価者・座本の評価関係などを対象とすることを検討する.
これらの実現により,浮世絵および役者評判記に対してより高度な分析を可能とし,近世日本語資料を対象とした人文情報学研究の発展に貢献することを目指す.

Report

(2 results)
  • 2024 Research-status Report
  • 2023 Research-status Report
  • Research Products

    (9 results)

All 2025 2024 2023

All Journal Article (2 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (7 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] MultArtRec: A Multimodal Neural Topic Modeling for Integrating Image and Text Features in Artwork Recommendation2024

    • Author(s)
      Jiayun Wang, Akira Maeda, and Kyoji Kawagoe
    • Journal Title

      Electronics

      Volume: 13 Issue: 2 Pages: 302-302

    • DOI

      10.3390/electronics13020302

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] DEVELOPING A MULTIMODAL DATABASE OF DIGITAL ARCHIVES FOR CULTURAL HERITAGE SITES - A CASE OF DIGITALLY PRESERVING THE BOROBUDUR TEMPLE OF INDONESIA2023

    • Author(s)
      Batjargal B.、Pan J.、Ji S.、Li L.、Yamaguchi H.、Hasegawa K.、Nishibayashi T.、Maeda A.、Sarjiati U.、Thufail F. I.、Tanaka S.、Brahmantara
    • Journal Title

      The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences

      Volume: XLVIII-1/W2-2023 Pages: 713-720

    • DOI

      10.5194/isprs-archives-xlviii-1-w2-2023-713-2023

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] 浮世絵データベースにおけるタイトルのマルチモーダル固有表現認識2025

    • Author(s)
      WU Bohao, 戸塚 史織, 前田 亮, 赤間 亮
    • Organizer
      第17回データ工学と情報マネジメントに関するフォーラム(DEIM2025)
    • Related Report
      2024 Research-status Report
  • [Presentation] Detecting Sarcasm Comments in Chinese SNS Through Emoji and Language Model Integration2025

    • Author(s)
      劉 子沛, 前田 亮
    • Organizer
      第17回データ工学と情報マネジメントに関するフォーラム(DEIM2025)
    • Related Report
      2024 Research-status Report
  • [Presentation] A BERT-Based Method of Named Entity Recognition for Ukiyo-e Titles2024

    • Author(s)
      Bohao Wu and Akira Maeda
    • Organizer
      The 26th International Conference on Asia-Pacific Digital Libraries (ICADL 2024)
    • Related Report
      2024 Research-status Report
    • Int'l Joint Research
  • [Presentation] BERTを用いた役者評判記からの固有表現認識2024

    • Author(s)
      Bohao Wu, 戸塚 史織, 前田 亮, 赤間 亮
    • Organizer
      人文科学とコンピュータシンポジウム
    • Related Report
      2024 Research-status Report
  • [Presentation] Sentence Pair Augmentation Approach for Grammatical Error Correction2023

    • Author(s)
      Ryoga Nagai and Akira Maeda
    • Organizer
      Computational Intelligence for Engineering and Management Applications -- Select Proceedings of CIEMA 2022, Lecture Notes in Electrical Engineering 984
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] 融合特徴に基づくグラフ畳み込みによる商品推薦手法2023

    • Author(s)
      王 兪歓, 前田 亮
    • Organizer
      WebDB夏のワークショップ2023
    • Related Report
      2023 Research-status Report
  • [Presentation] MultArtRec: A Multimodal Neural Topic Model for Integrating Image and Textual Features in Artwork Recommendation2023

    • Author(s)
      Jiayun Wang, Akira Maeda, and Kyoji Kawagoe
    • Organizer
      WebDB夏のワークショップ2023
    • Related Report
      2023 Research-status Report

URL: 

Published: 2023-04-13   Modified: 2025-12-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi