Research on multilingual data integration for digital archives of Japanese culture
Project/Area Number |
23K11780
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Ritsumeikan University |
Principal Investigator |
前田 亮 立命館大学, 情報理工学部, 教授 (20351322)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2026: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | 多言語処理 / レコード同定 / 情報推薦 / 情報検索 / 固有表現抽出 / 多言語情報アクセス / マルチモーダル / 文字認識 / メタデータ |
Outline of Research at the Start |
本研究では,近年急速にディジタル化が進んでいる日本文化に関わる各種資料のディジタルアーカイブの統合利用を目的として,これらのディジタルアーカイブの多言語データ統合を実現し,これらに対する統合的な多言語情報アクセス環境の実現を目指す.具体的には,日本文化データベースの言語横断レコード同定技術,日本文化ディジタルアーカイブに対するマルチモーダル情報検索・推薦技術,蔵書印および落款印の文字認識に基づく資料間・収集者間の関係分析の各技術について研究を進める.
|
Outline of Annual Research Achievements |
本年度は,日本文化に関わる各種資料のディジタルアーカイブ(以下DA)の多言語データ統合を実現する技術の開発に向けて,日本文化DAに対する言語横断レコード同定技術,日本文化DAに対する情報推薦技術,古典資料からの歴史人物情報の抽出の各技術について研究を行った. 日本文化DAに対する言語横断レコード同定技術に関しては,映画など現代の文化資源データベースを対象とした言語横断レコード同定のために,人名の言語横断型マッチング手法について検討を行った.具体的には,アルファベット表記の人名をカタカナ表記に変換するための人名アライメントモデルを構築し,これを英語と日本語の映画作品の言語横断レコード同定に適用した. 日本文化DAに対する情報推薦技術に関しては,将来的に文化資源の推薦にも応用可能な情報推薦技術の一つとして,利用者の嗜好情報とレビュー情報の特徴を融合したグラフ畳み込みニューラルネットワークに基づく協調フィルタリングによる情報推薦技術の研究を行った.また,非専門家を含む幅広い利用者が,浮世絵などの芸術作品の専門的な日本文化DAから自分の興味や嗜好に合った作品を発見することをサポートする手法の一つとして,絵画の画像および作品名テキストによるコンテンツベースの推薦技術と,利用者の嗜好に基づく協調フィルタリングベースの推薦技術を組み合わせた,マルチモーダルな芸術作品の情報推薦手法について研究を行った. 古典資料からの歴史人物情報の抽出技術に関しては,日本の歴史人名辞典の解説文から,人物に関する様々な属性情報を抽出する手法について研究を行った.特に,学習データが少ないことを想定し,少数事例学習に基づく固有表現抽出技術を用いた手法を提案した.さらに,その活用例として,本手法により得られた人物間の家族関係を可視化する手法について基礎的な検討を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の目標である,日本文化DAの多言語データ統合を実現する技術の開発に向けて,ほぼ計画通りに研究を進めることができた. 日本文化DAに対する言語横断レコード同定技術に関しては,日本人名のアルファベット表記とカタカナ表記の音訳を行うための,Transformerモデルに基づく人名アライメントモデルを構築した.日本語および英語で記述された映画データベースを利用して評価実験を行った結果,人名アライメントにおいて88.9%の正解率が得られた.また,本アライメントモデルによる人名のマッチングと映画ストーリーの類似度を用いた言語横断レコード同定の評価実験を行った結果,評価指標MRR(Mean Reciprocal Rank)において,0.8703の精度が得られた. 日本文化DAに対する情報推薦技術に関しては,利用者の嗜好情報とレビュー情報の特徴を融合した情報推薦技術に関して,ユーザ・アイテムの嗜好情報とレビューテキストから得られる嗜好特徴を融合することで,複数のベースライン手法を上回る精度が得られた.また,絵画の画像および作品名テキストによるコンテンツベースの推薦技術と協調フィルタリングベースの推薦技術を組み合わせたマルチモーダルな芸術作品の情報推薦手法に関して,ニューラルトピックモデリングに基づく手法を提案した.芸術作品データセットを用いた評価実験を行った結果,複数のベースライン手法と比較して,多くの指標において上回る結果が得られた. 古典資料からの歴史人物情報の抽出技術に関しては,芳賀矢一著『日本人名辞典』のディジタルテキストを用いて,職業,家族,生没年などの様々な人物属性情報を抽出する手法を提案した.評価実験の結果,提案手法である少数事例学習に基づく固有表現抽出技術が,歴史人物情報の抽出において有効であることを示した.
|
Strategy for Future Research Activity |
次年度は,日本文化DAに対する言語横断レコード同定技術,日本文化DAに対する情報推薦技術,古典資料からの歴史人物情報の抽出の各技術について,以下の検討を行う. 日本文化DAに対する言語横断レコード同定技術に関しては,これまで研究を行ってきた言語横断単語分散表現の精度を向上させるため,敵対的生成ネットワーク(Generative Adversarial Network: GAN)および正準相関分析(Canonical Correlation Analysis: CCA)を用いた手法を検討する.また,これを用いた言語横断レコード同定の評価実験を行う. 日本文化DAに対する情報推薦技術に関しては,アクセスログに基づくユーザ間の嗜好の関連性を用いたクエリ推薦,日本文化資源に特化した大規模言語モデルのファインチューニング,作品画像の意味認識に基づくキーワード生成などの技術を用いることにより,マルチモーダル情報推薦手法の精度向上を図る. 古典資料からの歴史人物情報の抽出技術に関しては,これまでに研究を進めてきた,固有表現抽出技術に基づく芳賀矢一著『日本人名辞典』および役者評判記テキストからの歴史人物情報の自動抽出手法を発展させ,日本文化資源に特化した大規模言語モデルに基づく固有表現抽出および関係抽出の技術を確立する.これにより,各種日本文化DAに含まれるテキストから,人名や地名,組織名などの固有表現を自動的に抽出し,さらにこれらの固有表現から対応する多言語百科事典などの項目への自動リンク生成を行う多言語エンティティリンキングの実現を目指す.
|
Report
(1 results)
Research Products
(5 results)