研究課題/領域番号 |
19K20630
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分90020:図書館情報学および人文社会情報学関連
|
研究機関 | 佐賀大学 |
研究代表者 |
吉賀 夏子 佐賀大学, 地域学歴史文化研究センター, 研究機関研究員 (70457498)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 江戸期古記録 / シチズンサイエンス / 深層学習 / 固有表現抽出 / 単語分散表現 / 機械可読化 / 市民科学 / 形態素解析 / ディープラーニング / 候文 / Linked Data / クラウドソーシング / シビックテック / 機械可読 |
研究開始時の研究の概要 |
従来の文化財あるいは歴史資料を対象とする人文系デジタルアーカイブの構築は、史料原本の破損や劣化の防止、情報整理が主目的であった。近年、そのようなアーカイブの役割は、通信・ハードウェア性能とソフトウェア技術両面の向上と、社会の課題をデータを用いて解決する、データ駆動型社会の推進で大きく変容している。本研究は、江戸時代に記された「小城鍋島日記目録」書誌を一例として、定量分析や外部知識へのアクセスが容易となるLinked Data形式の書誌データに低コストで変換するために、従来より一層高精度で、 個人負担の少ない手法をクラウドソーシングとディープラーニング技術を用いて確立するものである。
|
研究成果の概要 |
郷土に残存する多くの古記録から内容を把握するには、当時の文語によるくずし字文書を読み解く専門性が必須となる。現在このような専門性をもつ人材は数少なく、地域の歴史や文化を解析する大きな障壁となっている。本研究では、翻刻されたテキスト文から人名、出来事名、地名など読み解きの鍵となり得る固有表現(キーワード)を可能な限り機械的に抽出する手法を開発した。研究前半では、ネット上では見つけられない地域固有の表現を市民科学の観点から、郷土資料に元々関心のある市民に抽出を依頼した。研究後半では、人手による抽出結果を基に深層学習の手法を用いた固有表現抽出を行ない、大量の固有表現を高精度に抽出する手法を確立した。
|
研究成果の学術的意義や社会的意義 |
近年、我々の身の回りで起きる出来事をデータ化し、社会課題の解決に活かすデータ駆動型社会への移行が加速している。郷土の歴史資料においても同様に単なる画像への電子化に留まらず、テキスト化・機械可読化することが、人手に余る大量の資料の解析に必要であるとの認識が高まっている。本研究では、地域の歴史を知り守りたいと思う市民の助けと機械学習の力で歴史資料を低コストに機械可読化する手法を確立した。さらに、従来のデジタルアーカイブにおけるデータ提供者と利用者の役割を超えて関係者全員が文化財データを構築していく市民科学の実践にも貢献した。
|