2021 Fiscal Year Annual Research Report
文化財書誌の機械可読化普及を目指した低コストなLinked Data自動変換
Project/Area Number |
19K20630
|
Research Institution | Saga University |
Principal Investigator |
吉賀 夏子 佐賀大学, 地域学歴史文化研究センター, 研究機関研究員 (70457498)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 江戸期古記録 / 固有表現抽出 / 単語分散表現 / 市民科学 / 形態素解析 |
Outline of Annual Research Achievements |
本研究では、申請者が先行して開発した文化財書誌データのLinked Data自動変換手法の改良および機械可読化を目的として、以下に挙げる2つの研究を遂行した。まず、対象文化財である「小城鍋島日記目録」に関心を持つ市民と協働しネットで収集困難な地域特有の人名、地名、出来事などの固有表現(キーワード)を収集するシステムの構築を行なった。 次に、人名のような、人は容易に抽出できるにも関わらず、形態素解析など既存技術での機械的抽出が困難な固有表現について、人手で収集した固有表現を基に深層学習を行うことで機械的抽出を容易にするシステムを開発した。 人手による固有表現抽出については、初年度に複数人でデータ収集と蓄積、進捗確認等を行えるウェブアプリを構築した後、目録作成元の佐賀県小城市を中心に募集したところ、小城市立歴史資料館の古文書教室などから適切な人材を確保することができた。協力者は、あらかじめ話し合いで決めた固有表現抽出ルールに基づきウェブアプリを用いて4万件の目録記事文の固有表現抽出を行なった。その結果、固有表現抽出精度は時間経過とともに向上する一方で、解析対象が増えると抽出データの内容確認、協力者間での判定精度の違い、固有表現クラス間の判定難易度の違いにより、人手による作業には一定の限界があることが明らかになった。深層学習による固有表現抽出手法の開発では、江戸期と現代日本語それぞれにおける単語の意味自体は似通っているという仮説を立てて、1つ目の研究で獲得した比較的量の少ない江戸期固有表現抽出データと大量のWikipedia記事の現代日本語文を組み合わせて単語分散表現の学習モデルを構築し、そのモデルで未解析の目録記事文を自動的に固有表現抽出する仕組みを開発した。 その結果、人手と機械学習を組み合わせることで相互のデメリットを補完し高精度に固有表現の抽出が可能であることが明らかになった。
|
Research Products
(2 results)