研究課題/領域番号 |
18K18508
|
研究機関 | 九州大学 |
研究代表者 |
石田 栄美 九州大学, 附属図書館, 准教授 (50364815)
|
研究分担者 |
中藤 哲也 九州大学, 情報基盤研究開発センター, 助教 (20253502)
畑埜 晃平 九州大学, 基幹教育院, 准教授 (60404026)
|
研究期間 (年度) |
2018-06-29 – 2021-03-31
|
キーワード | オープンデータ / デジタルヒューマニティーズ / 貴重書のデジタル化 |
研究実績の概要 |
本年度は、まず、オープンデータのために貴重資料をデジタル化した。研究資料として価値が高いと判断される雅俗文庫の中から、120点を選択し、デジタル化した。画像数にすると計4,270枚となる。これらは、データリポジトリ用の試験的データでもあるが、順次、IIIF対応し、九州大学附属図書館のデジタルコレクションでも公開予定である。 また、オープンデータ、デジタルヒューマニティーズの啓蒙のため、シンポジウム「オープンデータと大学」を後援した。このシンポジウムにおいては、オープンデータに関して大学がどのように向き合っていくかを議論した。 デジタルヒューマニティーズ研究の一環として、くずし字の自動認識手法を2つ提案した。一つ目は、CNN(Convolutional Neural Networks)の画像特徴を抽出する特性を利用し、文字枠の選定を行うと同時に、当該文字の枠も学習させる方法である。二つ目は、区切り枠のみの予測であり、従来の手書き文字認識によく使われる多文字画像を単一文字ずつに分割してから認識するという手順をくずし字の認識に適用するという手法である。これらの提案手法を、誤認識率と枠の一致率という評価手法を用いて評価した。7万個の3文字データを用いて訓練し、7000個のテスト用データを用いて評価したところ、二つ目のの提案手法の誤認識率は、すでに開催されたくずし字チャレンジ最優秀賞チームの誤認識率に比べ、よい結果を示した。また、枠の評価については、一つ目の提案手法の枠予測結果は、二つ目の提案手法よりよい結果を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
オープンデータの啓蒙やデジタルヒューマニティーズの研究は行っているが、オープンデータのためのデータリポジトリの試験的運用が実現できていないため、やや遅れているといえる。
|
今後の研究の推進方策 |
今後は、データリポジトリの試験的運用を検討するが、オープンデータの推進は大学全体で議論が始まっているため、それらの動向も把握しながら、どのような方向や方法が最適化を検討する。また、貴重書のデジタル化についても、他組織の試みも把握しながら、今まで焦点が当てられなかった貴重書についてもデジタル化の価値があるかどうかを検討する。
|
次年度使用額が生じた理由 |
交付決定時期が7月だっため、研究プロジェクトの立ち上げと準備が遅くなってしまい、、計画していたオープンデータの動向調査やデータリポジトリの試験的運用が実施ができなかった。次年度ではこれらも年間計画に含める。
|