• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

文化財書誌の機械可読化普及を目指した低コストなLinked Data自動変換

研究課題

研究課題/領域番号 19K20630
研究種目

若手研究

配分区分基金
審査区分 小区分90020:図書館情報学および人文社会情報学関連
研究機関佐賀大学

研究代表者

吉賀 夏子  佐賀大学, 地域学歴史文化研究センター, 研究機関研究員 (70457498)

研究期間 (年度) 2019-04-01 – 2022-03-31
研究課題ステータス 交付 (2020年度)
配分額 *注記
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード固有表現抽出 / ディープラーニング / 候文 / Linked Data / 機械可読化 / クラウドソーシング / シビックテック / 機械可読
研究開始時の研究の概要

従来の文化財あるいは歴史資料を対象とする人文系デジタルアーカイブの構築は、史料原本の破損や劣化の防止、情報整理が主目的であった。近年、そのようなアーカイブの役割は、通信・ハードウェア性能とソフトウェア技術両面の向上と、社会の課題をデータを用いて解決する、データ駆動型社会の推進で大きく変容している。本研究は、江戸時代に記された「小城鍋島日記目録」書誌を一例として、定量分析や外部知識へのアクセスが容易となるLinked Data形式の書誌データに低コストで変換するために、従来より一層高精度で、 個人負担の少ない手法をクラウドソーシングとディープラーニング技術を用いて確立するものである。

研究実績の概要

2019年度は、候文(近世以前の文語体)で記載された日記目録の記事文から、特に地域色の濃い固有表現(重要キーワード)の抽出をおこなうため、地元小城市立歴史資料館および佐賀大学から紹介していただいた市民とともに、クラウドソーシングによる手作業の固有表現抽出を試みた。この作業で得られたデータは、形態素解析ツール用辞書に統合され、抽出精度を高めることができた。
2020年度は、形態素解析ツールのみでは新規に出現する固有表現には対応できないため、前年度に収集した固有表現データを教師データとするディープラーニングモデルを生成し、そのモデルによる推測で記事文から固有表現抽出を行なった。
しかし、適切なモデルを構築するためには、教師データとして翻刻された候文を数百万程度は収集しなければならないが、現在くずし字の読める専門家によって手作業で作られている翻刻文を必要数集めるのは、事実上困難である。
そのため、現代日本語Wikipedia記事400万文以上から、あらかじめ計算された単語同士の意味関係の繋がりの強さを表す巨大分散表現データをウェブから取得し、候文の代替教師データとしてディープラーニングモデルに採用した。なぜなら、日記目録中の候文は現代日本文とはもちろん文法的に大きく異なるが、これまでに抽出した固有表現同士の表記と意味的な関係性自体は現代日本文と似通っており、専門家でない人でも候文中から抽出した固有表現の意味は理解可能なためである。
上記現代日本語ベースの教師データと候文中で使用されている固有表現データを組み合わせた単語分散表現を構築し、比較的容易にそれらのデータを使用できる固有表現抽出フレームワークFlairを通じて、サンプル候文から固有表現抽出を行なったところ、特に専門的な知識が必要となる人名と候文用語については、9割以上の実用的な精度で安定して抽出できることが明らかになった。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

ディープラーニングによる候文の固有表現抽出には、十分なメモリをもつグラフィックボードを搭載した機材を使わなければならない。そして、遅い機材あるいはクラウドサービスでは、抽出精度の高いモデル構築に数時間から数日と、非常に時間が掛かる。そのため、ディープラーニングを許容範囲の時間かつ廉価に行える環境の整備自体に予想以上の時間が掛かった。結果的には、高精度の機材を使用する機会に運よく恵まれ、最後までモデル構築を行うことができた。
研究手法そのものは、最新のディープラーニングによる固有表現抽出フレームワークが、日本語はもとより候文にも実際に機能したため、問題なく実験を進めることができた。

今後の研究の推進方策

最終年度にあたる2021年度は、これまで行なった研究成果をまとめ、論文や学会発表で公開する予定である。
特に、固有表現抽出が人間と従来の形態素解析ツール、ディープラーニングによるツールでどのくらい抽出精度が上がるのかを比較検証する。
また、Linked Data紐付けに必要な地名・人名データの収集および整理を行う予定である。

報告書

(2件)
  • 2020 実施状況報告書
  • 2019 実施状況報告書

研究成果

(8件)

すべて 2021 2020 2019 その他

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件) (うち招待講演 2件) 図書 (1件) 備考 (2件)

  • [雑誌論文] 地域市民と創出する文化財データ2020

    • 著者名/発表者名
      吉賀 夏子
    • 雑誌名

      考古学ジャーナル

      巻: 736 ページ: 27-28

    • 関連する報告書
      2019 実施状況報告書
    • 査読あり
  • [雑誌論文] 低コストなLinked Data化を目指したクラウドソーシングによる固有表現収集の試み2019

    • 著者名/発表者名
      吉賀 夏子, 只木 進一
    • 雑誌名

      じんもんこん2019論文集

      巻: 2019 ページ: 239-244

    • NAID

      170000180929

    • 関連する報告書
      2019 実施状況報告書
    • 査読あり
  • [学会発表] 候文における文字単位の単語分散表現モデルに基づく固有表現抽出手法2021

    • 著者名/発表者名
      吉賀 夏子, 堀 良彰, 永崎 研宣
    • 学会等名
      研究報告人文科学とコンピュータ(CH)
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 小城藩日記プロジェクトの紹介2020

    • 著者名/発表者名
      吉賀夏子
    • 学会等名
      第122回人文学とコンピュータ研究会(情報処理学会)/第13回地域学シンポジウム
    • 関連する報告書
      2019 実施状況報告書
    • 招待講演
  • [学会発表] 低コストな文化財書誌の機械可読化を目指して2019

    • 著者名/発表者名
      吉賀夏子
    • 学会等名
      人文学とコンピュータシンポジウム2019 企画セッション「若手研究者によるCH/人文情報学」
    • 関連する報告書
      2019 実施状況報告書
    • 招待講演
  • [図書] Japanese and Asian Historical Research in the Digital Age2021

    • 著者名/発表者名
      The National Museum of Japanese History Makoto Goto, Satoru Nakamura, Chifumi Nishioka, Arianti Ayu Puspita, Taizo Yamada, Yuta Hashimoto, Natsuko Yoshiga, Tatsuki Sekino, Naoki Kokaze, and Shohei Yamasaki
    • 総ページ数
      216
    • 出版者
      University of Michigan Press
    • ISBN
      9781607855118
    • 関連する報告書
      2020 実施状況報告書
  • [備考] 小城藩日記プロジェクト - UDC2019 NO.188

    • URL

      https://winter.ai.is.saga-u.ac.jp/udc2019/

    • 関連する報告書
      2019 実施状況報告書
  • [備考] 小城藩日記データベース

    • URL

      https://www.dl.saga-u.ac.jp/ogiNikki/

    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2019-04-18   更新日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi