研究課題/領域番号 |
19K20630
|
研究機関 | 佐賀大学 |
研究代表者 |
吉賀 夏子 佐賀大学, 地域学歴史文化研究センター, 研究機関研究員 (70457498)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 固有表現抽出 / ディープラーニング / 候文 |
研究実績の概要 |
2019年度は、候文(近世以前の文語体)で記載された日記目録の記事文から、特に地域色の濃い固有表現(重要キーワード)の抽出をおこなうため、地元小城市立歴史資料館および佐賀大学から紹介していただいた市民とともに、クラウドソーシングによる手作業の固有表現抽出を試みた。この作業で得られたデータは、形態素解析ツール用辞書に統合され、抽出精度を高めることができた。 2020年度は、形態素解析ツールのみでは新規に出現する固有表現には対応できないため、前年度に収集した固有表現データを教師データとするディープラーニングモデルを生成し、そのモデルによる推測で記事文から固有表現抽出を行なった。 しかし、適切なモデルを構築するためには、教師データとして翻刻された候文を数百万程度は収集しなければならないが、現在くずし字の読める専門家によって手作業で作られている翻刻文を必要数集めるのは、事実上困難である。 そのため、現代日本語Wikipedia記事400万文以上から、あらかじめ計算された単語同士の意味関係の繋がりの強さを表す巨大分散表現データをウェブから取得し、候文の代替教師データとしてディープラーニングモデルに採用した。なぜなら、日記目録中の候文は現代日本文とはもちろん文法的に大きく異なるが、これまでに抽出した固有表現同士の表記と意味的な関係性自体は現代日本文と似通っており、専門家でない人でも候文中から抽出した固有表現の意味は理解可能なためである。 上記現代日本語ベースの教師データと候文中で使用されている固有表現データを組み合わせた単語分散表現を構築し、比較的容易にそれらのデータを使用できる固有表現抽出フレームワークFlairを通じて、サンプル候文から固有表現抽出を行なったところ、特に専門的な知識が必要となる人名と候文用語については、9割以上の実用的な精度で安定して抽出できることが明らかになった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ディープラーニングによる候文の固有表現抽出には、十分なメモリをもつグラフィックボードを搭載した機材を使わなければならない。そして、遅い機材あるいはクラウドサービスでは、抽出精度の高いモデル構築に数時間から数日と、非常に時間が掛かる。そのため、ディープラーニングを許容範囲の時間かつ廉価に行える環境の整備自体に予想以上の時間が掛かった。結果的には、高精度の機材を使用する機会に運よく恵まれ、最後までモデル構築を行うことができた。 研究手法そのものは、最新のディープラーニングによる固有表現抽出フレームワークが、日本語はもとより候文にも実際に機能したため、問題なく実験を進めることができた。
|
今後の研究の推進方策 |
最終年度にあたる2021年度は、これまで行なった研究成果をまとめ、論文や学会発表で公開する予定である。 特に、固有表現抽出が人間と従来の形態素解析ツール、ディープラーニングによるツールでどのくらい抽出精度が上がるのかを比較検証する。 また、Linked Data紐付けに必要な地名・人名データの収集および整理を行う予定である。
|
次年度使用額が生じた理由 |
前年度、人件費が予想より必要となり前倒し申請を行ったが、申請直後に地域学歴史文化研究センターから資金の支援を受けることができたため、速やかに前倒しの予算を使用する機会がなくなった。 さらに2020年度のコロナ禍で、9割方の学会およびイベントはオンラインか中止となり、特に関東方面の旅費については使用が困難だった。 次年度は本プロジェクトの最終年度であるが、前年度に引き続き旅費の計上はまず不可能であると予想している。 そのため、オンラインで可能な作業(人件費)、機器、クラウドサービス、図書、論文執筆に係る費用に計上し、残額は返却の予定である。
|