研究課題/領域番号 |
19K20630
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 佐賀大学 |
研究代表者 |
吉賀 夏子 佐賀大学, 地域学歴史文化研究センター, 研究機関研究員 (70457498)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
交付 (2020年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 固有表現抽出 / ディープラーニング / 候文 / Linked Data / 機械可読化 / クラウドソーシング / シビックテック / 機械可読 |
研究開始時の研究の概要 |
従来の文化財あるいは歴史資料を対象とする人文系デジタルアーカイブの構築は、史料原本の破損や劣化の防止、情報整理が主目的であった。近年、そのようなアーカイブの役割は、通信・ハードウェア性能とソフトウェア技術両面の向上と、社会の課題をデータを用いて解決する、データ駆動型社会の推進で大きく変容している。本研究は、江戸時代に記された「小城鍋島日記目録」書誌を一例として、定量分析や外部知識へのアクセスが容易となるLinked Data形式の書誌データに低コストで変換するために、従来より一層高精度で、 個人負担の少ない手法をクラウドソーシングとディープラーニング技術を用いて確立するものである。
|
研究実績の概要 |
2019年度は、候文(近世以前の文語体)で記載された日記目録の記事文から、特に地域色の濃い固有表現(重要キーワード)の抽出をおこなうため、地元小城市立歴史資料館および佐賀大学から紹介していただいた市民とともに、クラウドソーシングによる手作業の固有表現抽出を試みた。この作業で得られたデータは、形態素解析ツール用辞書に統合され、抽出精度を高めることができた。 2020年度は、形態素解析ツールのみでは新規に出現する固有表現には対応できないため、前年度に収集した固有表現データを教師データとするディープラーニングモデルを生成し、そのモデルによる推測で記事文から固有表現抽出を行なった。 しかし、適切なモデルを構築するためには、教師データとして翻刻された候文を数百万程度は収集しなければならないが、現在くずし字の読める専門家によって手作業で作られている翻刻文を必要数集めるのは、事実上困難である。 そのため、現代日本語Wikipedia記事400万文以上から、あらかじめ計算された単語同士の意味関係の繋がりの強さを表す巨大分散表現データをウェブから取得し、候文の代替教師データとしてディープラーニングモデルに採用した。なぜなら、日記目録中の候文は現代日本文とはもちろん文法的に大きく異なるが、これまでに抽出した固有表現同士の表記と意味的な関係性自体は現代日本文と似通っており、専門家でない人でも候文中から抽出した固有表現の意味は理解可能なためである。 上記現代日本語ベースの教師データと候文中で使用されている固有表現データを組み合わせた単語分散表現を構築し、比較的容易にそれらのデータを使用できる固有表現抽出フレームワークFlairを通じて、サンプル候文から固有表現抽出を行なったところ、特に専門的な知識が必要となる人名と候文用語については、9割以上の実用的な精度で安定して抽出できることが明らかになった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ディープラーニングによる候文の固有表現抽出には、十分なメモリをもつグラフィックボードを搭載した機材を使わなければならない。そして、遅い機材あるいはクラウドサービスでは、抽出精度の高いモデル構築に数時間から数日と、非常に時間が掛かる。そのため、ディープラーニングを許容範囲の時間かつ廉価に行える環境の整備自体に予想以上の時間が掛かった。結果的には、高精度の機材を使用する機会に運よく恵まれ、最後までモデル構築を行うことができた。 研究手法そのものは、最新のディープラーニングによる固有表現抽出フレームワークが、日本語はもとより候文にも実際に機能したため、問題なく実験を進めることができた。
|
今後の研究の推進方策 |
最終年度にあたる2021年度は、これまで行なった研究成果をまとめ、論文や学会発表で公開する予定である。 特に、固有表現抽出が人間と従来の形態素解析ツール、ディープラーニングによるツールでどのくらい抽出精度が上がるのかを比較検証する。 また、Linked Data紐付けに必要な地名・人名データの収集および整理を行う予定である。
|