2018 Fiscal Year Research-status Report
デジタルヒューマニティーズを促進するオープンデータ環境およびシステム基盤の構築
Project/Area Number |
18K18508
|
Research Institution | Kyushu University |
Principal Investigator |
石田 栄美 九州大学, 附属図書館, 准教授 (50364815)
|
Co-Investigator(Kenkyū-buntansha) |
中藤 哲也 九州大学, 情報基盤研究開発センター, 助教 (20253502)
畑埜 晃平 九州大学, 基幹教育院, 准教授 (60404026)
|
Project Period (FY) |
2018-06-29 – 2021-03-31
|
Keywords | オープンデータ / デジタルヒューマニティーズ / 貴重書のデジタル化 |
Outline of Annual Research Achievements |
本年度は、まず、オープンデータのために貴重資料をデジタル化した。研究資料として価値が高いと判断される雅俗文庫の中から、120点を選択し、デジタル化した。画像数にすると計4,270枚となる。これらは、データリポジトリ用の試験的データでもあるが、順次、IIIF対応し、九州大学附属図書館のデジタルコレクションでも公開予定である。 また、オープンデータ、デジタルヒューマニティーズの啓蒙のため、シンポジウム「オープンデータと大学」を後援した。このシンポジウムにおいては、オープンデータに関して大学がどのように向き合っていくかを議論した。 デジタルヒューマニティーズ研究の一環として、くずし字の自動認識手法を2つ提案した。一つ目は、CNN(Convolutional Neural Networks)の画像特徴を抽出する特性を利用し、文字枠の選定を行うと同時に、当該文字の枠も学習させる方法である。二つ目は、区切り枠のみの予測であり、従来の手書き文字認識によく使われる多文字画像を単一文字ずつに分割してから認識するという手順をくずし字の認識に適用するという手法である。これらの提案手法を、誤認識率と枠の一致率という評価手法を用いて評価した。7万個の3文字データを用いて訓練し、7000個のテスト用データを用いて評価したところ、二つ目のの提案手法の誤認識率は、すでに開催されたくずし字チャレンジ最優秀賞チームの誤認識率に比べ、よい結果を示した。また、枠の評価については、一つ目の提案手法の枠予測結果は、二つ目の提案手法よりよい結果を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
オープンデータの啓蒙やデジタルヒューマニティーズの研究は行っているが、オープンデータのためのデータリポジトリの試験的運用が実現できていないため、やや遅れているといえる。
|
Strategy for Future Research Activity |
今後は、データリポジトリの試験的運用を検討するが、オープンデータの推進は大学全体で議論が始まっているため、それらの動向も把握しながら、どのような方向や方法が最適化を検討する。また、貴重書のデジタル化についても、他組織の試みも把握しながら、今まで焦点が当てられなかった貴重書についてもデジタル化の価値があるかどうかを検討する。
|
Causes of Carryover |
交付決定時期が7月だっため、研究プロジェクトの立ち上げと準備が遅くなってしまい、、計画していたオープンデータの動向調査やデータリポジトリの試験的運用が実施ができなかった。次年度ではこれらも年間計画に含める。
|