研究課題/領域番号 |
19K20630
|
研究機関 | 佐賀大学 |
研究代表者 |
吉賀 夏子 佐賀大学, 理工学部, 客員研究員 (70457498)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | Linked Data / 機械可読化 / 固有表現抽出 / クラウドソーシング / シビックテック |
研究実績の概要 |
本研究は、江戸時代の業務日誌である古文書「小城鍋島日記目録」の記事を、定量分析や外部知識へのアクセスが容易となるLinked Data形式の機械可読データへ低コストで自動変換する手法を開発する。具体的には、地域色の強い人名、地名、出来事などのキーワードである固有表現の抽出をクラウドソーシングで行う。その後、固有表現の中でも、人間は容易に抽出できるにも関わらず、形態素解析など既存技術での機械的抽出が困難な「人名」について、クラウドソーシングで収集した人名を用いたディープラーニングによる学習と類推による機械的な抽出を実現する。 本年度は、クラウドソーシングによるウェブアプリケーションの開発と実運用を行った。対象書誌の解析のため、郷土資料の読み解きに強い市民8名(4名は有償)を佐賀県小城市を中心に募集し、本アプリを用いて作業を行った。本アプリでは、古文書翻刻文からの固有表現抽出結果を、あらかじめ機械的に解析して作業者に提示し、その結果を作業者が適宜修正する方式で、実質マウス操作だけで作業を簡単に進めることができる。さらに、収集したデータを定期的にチェックし、自動抽出システムに再投入することで、常に最新の固有表現データが当該システムに反映される。2019年5月から、2020年4月まで11ヶ月間、本システムを稼働させた結果、専門性の高い作業内容にも関わらず、1日平均156件、これまでに記事文50801件中37841件(535272語)の作業が当初の予想を上回る速度で完了した。 本研究を通じ、地域に所在する文化財データの構築においては、一般知識のみでは獲得不可能な地域固有の情報を、市民から簡易かつ確度を担保して収集し、その情報を再利用することで、膨大な翻刻文を低コストに機械可読化することが可能であることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究をもとに、2件の査読あり論文および2件の関連する講演を発表した。また、当該研究が関与する小城藩日記データベースとその取り組みについて、2019年11月に丸善雄松堂ゲスナー賞「デジタルによる知の組織化」部門銀賞、2020年3月(内定、10月頃に授賞式予定)にデジタルアーカイブ学会実践賞、2020年3月にアーバンデータチャレンジ(UDC2019)で銀賞およびオープンガバメント協議会賞銅賞を授賞した。
|
今後の研究の推進方策 |
クラウドソーシングでの固有表現抽出作業は、40000件に達した時点で一旦終了する予定である。今年度は、2)の構築システム上でディープラーニング技術(以下、DLとする。)による固有表現抽出手法に関する調査と具体的なシステム構築を行う。その際、DLに おける自然言語処理技術の進歩に対応するため、研究協力者と情報収集を行い、GPU搭載マシンあるいはクラウドサービス上で、固有表現抽出を行うためのテストプログラミング、学習モデル構築を行い、具体的な手法を固める予定である。 最終的には、クラウドソーシングで集めた人名を教師(正解)データとして学習モデルを作り、文字列構成および文脈パターンを自動認識することで、学習前の文から人名を機械的に推測する。加えて、上記クラウドソーシング(人力)での抽出結果を基に構築したDL学習モデルおよびユーザ辞書を搭載した形態素解析ツールを用いた場合での固有表現抽出結果を比較する。
|
次年度使用額が生じた理由 |
本年度に、クラウドソーシングでの固有表現抽出作業が研究開始当初の予想を上回って進捗したため、人件費(謝金)が2019年10月に不足した。そのため、前倒し申請で60万円を請求した。その後、佐賀大学地域学歴史文化研究センターから、2019年11月から2020年3月までの人件費について研究助成を受けることができたため、前倒し申請分は概ね未使用となった。未使用の次年度使用額は、2020年4月からの固有表現抽出作業に充てる予定である。
|