| Project/Area Number |
23K11780
|
| Research Category |
Grant-in-Aid for Scientific Research (C)
|
| Allocation Type | Multi-year Fund |
| Section | 一般 |
| Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
| Research Institution | Ritsumeikan University |
Principal Investigator |
前田 亮 立命館大学, 情報理工学部, 教授 (20351322)
|
| Project Period (FY) |
2023-04-01 – 2027-03-31
|
| Project Status |
Granted (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2026: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
| Keywords | 多言語処理 / 固有表現認識 / BERT / マルチモーダル / レコード同定 / 情報推薦 / 情報検索 / 固有表現抽出 / 多言語情報アクセス / 文字認識 / メタデータ |
| Outline of Research at the Start |
本研究では,近年急速にディジタル化が進んでいる日本文化に関わる各種資料のディジタルアーカイブの統合利用を目的として,これらのディジタルアーカイブの多言語データ統合を実現し,これらに対する統合的な多言語情報アクセス環境の実現を目指す.具体的には,日本文化データベースの言語横断レコード同定技術,日本文化ディジタルアーカイブに対するマルチモーダル情報検索・推薦技術,蔵書印および落款印の文字認識に基づく資料間・収集者間の関係分析の各技術について研究を進める.
|
| Outline of Annual Research Achievements |
本年度は,日本文化に関わる各種資料のディジタルアーカイブの多言語データ統合を実現する技術の開発に向けて,各種古典資料からの固有表現認識技術について研究を行った. まず,浮世絵作品名からの固有表現認識の研究を行った.立命館大学アート・リサーチセンターの浮世絵・日本絵画ポータルデータベースが公開している浮世絵作品のうち,2,160件の名所絵・役者絵・相撲絵を抽出し,それらの作品名に含まれる地名・人名・組織・出来事の4種類の固有表現についてアノテーションを行うことで,固有表現認識のためのデータセットを構築した.これを用いて,日本語BERTモデルおよびその派生モデル(RoBERTa,XLNet,LUKE,ALBERT,DeBERTa)にCRFを組み合わせた手法により,浮世絵作品名からの固有表現認識精度の評価実験を行った. 次に,歌舞伎役者の芸評書である役者評判記の本文テキストからの固有表現認識の研究を行った.『役者多名卸(江戸の巻)』および『役者多名卸(京の巻)』のテキストから,役者名・替名(役名),座本(劇場名),位付(評価)の4種類の固有表現についてアノテーションを行うことで,固有表現認識のためのデータセットを構築した.これを用いて,文字ベースの日本語BERTモデルに基づく手法により,役者評判記テキストからの固有表現認識精度の評価実験を行った. さらに,浮世絵作品名の固有表現認識において,同作品の浮世絵画像の情報を活用したマルチモーダル手法の研究を行った.1,000件の浮世絵作品名および画像のデータセットを用いて,作品名テキストに日本語BERTモデルを用い,浮世絵画像にResNetを用いたマルチモーダルTransformerに基づく手法により,浮世絵作品名からのマルチモーダル固有表現認識精度の評価実験を行った.
|
| Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の目標である,日本文化ディジタルアーカイブの多言語データ統合を実現する技術の開発に向けて,ほぼ計画通りに研究を進めることができた. まず,浮世絵作品名からの固有表現認識の研究については,複数のBERTの派生モデルの比較実験を行った結果,日本語BERT-largeモデルにCRFを組み合わせたモデルにおいて,F値で0.83と最高の精度が得られた.また,単語ベースと文字ベースのBERTモデルの比較を行ったが,精度に大きな違いは見られなかった.固有表現の種類別では,人名がF値0.93と最も高い精度であり,組織名がF値0.40と最も低い精度であった.精度に向上の余地はあるものの,浮世絵作品名の翻訳などに有用である固有表現認識が概ね実用的な精度で行えることが明らかになった. 次に,歌舞伎役者の芸評書である役者評判記の本文テキストからの固有表現認識の研究については,ベースラインとして使用したBiLSTM-CRFモデルと比較して,現代日本語BERTモデルがF値の平均において約9%高い0.86の精度が得られた.固有表現の種類別では,座本と位付においてF値0.98と非常に高い精度であった.一方で,替名(役名)はF値0.55と比較的低い精度であった.浮世絵作品名と同様に,精度に向上の余地はあるものの,概ね実用的な精度であると考えられる. さらに,浮世絵作品の浮世絵画像の情報を活用したマルチモーダル手法の研究については,F値の平均で約5%の向上が得られた.特に,役者名と替名(役名)において精度が大きく向上した.画像情報を用いることで,浮世絵作品名の固有表現認識精度が大幅に向上することが明らかになった.
|
| Strategy for Future Research Activity |
次年度は,日本文化ディジタルアーカイブに対する固有表現認識技術について,以下の検討を行う. まず,浮世絵作品名の固有表現認識において,特にこれまでの実験で比較的精度が低かった地名・組織名・出来事について,データセットの拡大や手法の改良により,精度の向上を目指す.また,作品画像を用いたマルチモーダル固有表現認識において,テキスト中の各固有表現に対応する画像内の領域を特定するタスクである根拠付きマルチモーダル固有表現認識(Grounded Multimodal Named Entity Recognition)に拡張することで,テキスト中の固有表現認識に留まらない,より広範な浮世絵分析へ応用の実現を目指す. また,役者評判記のテキスト分析においては,これまでの固有表現認識に加えて,固有表現間の関係を識別する関係抽出タスクへの発展を図る.具体的には,役者間の襲名関係,役者と地名の別名関係,役者名・役柄・替名の替名関係,役者名・位付・評価者・座本の評価関係などを対象とすることを検討する. これらの実現により,浮世絵および役者評判記に対してより高度な分析を可能とし,近世日本語資料を対象とした人文情報学研究の発展に貢献することを目指す.
|