2018 Fiscal Year Research-status Report
多言語ディジタルアーカイブにおける言語横断レコード同定手法の研究
Project/Area Number |
16K00452
|
Research Institution | Ritsumeikan University |
Principal Investigator |
前田 亮 立命館大学, 情報理工学部, 教授 (20351322)
|
Co-Investigator(Kenkyū-buntansha) |
バトジャルガル ビルゲサイハン 立命館大学, 衣笠総合研究機構, 研究員 (30725396)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | メタデータ / 浮世絵 / レコード同定 |
Outline of Annual Research Achievements |
本年度は,本研究課題の目標である,世界中に散在するディジタルアーカイブ間の同一実体レコードを自動的に発見し,それらをリンクさせる技術の開発に向けて,前年度に引き続き,主に言語横断レコード同定に関する研究を行った.浮世絵のディジタルアーカイブを対象とし,これまでに研究を進めてきた固有名詞の逆翻訳(back transliteration)に基づく手法および,単語の分散表現(word embedding)を用いた単言語の意味的マッチングに基づく2種類の手法に加え,言語横断型の単語分散表現を用いることにより,機械翻訳に依存せずに異言語間でのメタデータの類似度を計算し,これを用いて異言語の浮世絵データベースから同一作品を同定する手法を新たに提案し,これまでに提案した機械翻訳および単言語の単語分散表現を用いる手法と同等の性能が得られることを示した.本手法について,第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019)で発表を行った.また,機械翻訳および単言語の単語分散表現を用いる手法について,日本データベース学会英文論文誌に論文が掲載された.なお,対象とする浮世絵データセットについて,これまでの日本語および英語に加え,オランダ語のデータセットを構築した.今後は,このデータセットを用いて,これまで提案した3種類の言語横断レコード同定手法について,3言語間でのレコード同定の実験を行い,実用的な精度が得られるかどうかについて検証を行う予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の目標である,世界中に散在するディジタルアーカイブ間の同一実体レコードを自動的に発見し,それらをリンクさせる技術の開発に向けて,ほぼ計画通りに研究を進めることができた.特に,言語横断型の単語分散表現を用いることにより,機械翻訳に依存せずに異言語間でのメタデータの類似度を計算し,これを用いて異言語の浮世絵データベースから同一作品を同定する新たな手法により,これまでの固有名詞の逆翻訳に基づく手法と比較して精度向上を見込め,かつ単言語の単語分散表現を用いる手法と同等の精度を,機械翻訳に依存せずに実現する手法を提案することができた.また,これまでの日本語と英語に加え,オランダ語のデータセットを構築することで,今後の実験において3言語間での言語横断レコード同定の精度を検証するための環境を構築することができた.
|
Strategy for Future Research Activity |
次年度は,同一作品の同定手法の研究を中心に,より同定精度を向上させるために,刊行年などの作品名以外のメタデータ要素の利用,単語の分散表現を用いた手法におけるより適切なコーパスや学習モデルの検討を行う.特に,作品名中に現れる人名・地名などのエンティティに着目し,同一作品レコードだけでなく,関連する作品の発見に繋がる新たな手法を検討する.また,現在対象としている浮世絵以外の他のディジタルアーカイブへの対応を行うことを検討している.本研究の成果は,複数の国内会議および国際会議において発表を行う予定である.また,研究成果をまとめた論文を学術論文誌に投稿する.
|
Causes of Carryover |
(理由) 成果発表のための旅費として計上していた金額が,当初の見積もりよりも少額で済むことになったため. (使用計画) 次年度使用額は,主に研究補助のアルバイト謝金に充てる計画である.
|
Research Products
(11 results)