2018 Fiscal Year Research-status Report
a Study of Efficient Human-assisted OCR of Japanese Books
Project/Area Number |
17K12790
|
Research Institution | Chiba University |
Principal Investigator |
池田 光雪 千葉大学, アカデミック・リンク・センター, 特任助教 (10779606)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | デジタル翻刻 / クラウドソーシング / マイクロタスク / 文字起こし |
Outline of Annual Research Achievements |
本研究は,画像化されている日本語資料に対するマイクロタスク型クラウドソーシングを用いた効率の良い文字起こし,いわゆるデジタル翻刻手法の設計及びシステムの構築を行うことにより,デジタルアーカイブの更なる利便化等に資することを目的としている.デジタル翻刻は機械によるOCRや人手による修正,あるいはそれらの組合せで行うことが一般的だが,品質あるいはコストの面で課題があった.本研究では,マイクロタスク型クラウドソーシングを導入し,複数の形式や粒度のタスクを組み合わせることや,光学的文字認識の精度により一度に校正する文字数を動的に変化させることなどにより,少ないタスク数でより多くの翻刻を高品質に行うことを目指す.平成30年度の実施内容は次の通りである. (1)マイクロタスクの設計の検討:昨年度考案した多段階のマイクロタスクの設計について,より詳細な検討を行った.具体的には,a)図画部分のような偽陽性の要因となる部分を除去するタスク,b)文字認識の結果の確認・修正を行うタスク,c)校正結果を確認し,誤りがあれば再度確認・修正を行うタスクの三段階にデジタル翻刻を分ける検討を行った. (2)マイクロタスクの粒度に応じたタスク設計:文字認識の校正タスクにおいて,ユーザの実行環境などに応じてより適切なインタフェースを提供する仕組みの検討を行った. (3)試験的なデジタル翻刻システムの実装:(1)(2)の結果を踏まえたマイクロタスク型クラウドソーシングによるデジタル翻刻システムの実装を行い,有用性の検討を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
本研究では,平成30年度中にマイクロタスク型クラウドソーシングによるデジタル翻刻システムの設計及び実装を終え,その評価及び研究成果の公表を行うことを予定していたが,作業が遅れ一部が未完了である.プロトタイプが想定したように動作せず,再設計や再実装が必要になったことに加え,研究代表者の職務上および家庭の事情による繁忙,及び心身の不調により当初の予定以上にエフォートを割くことが困難な状況であったことが一因である.
|
Strategy for Future Research Activity |
当初の計画通り研究を遂行することができなかったため,研究期間を1年間延長した.最終年度では,早急に開発を完了させ,実際にデジタル翻刻を行うことで当該システムの評価を行い,タスク設計の改良等へ展開させる予定である.また,年度後半には検討したタスク設計及びデジタル翻刻の結果や得られたデータなどの成果の学会発表もしくは論文執筆による公表を予定する.
|
Causes of Carryover |
平成30年度の予算執行状況としては,研究計画の遅延により開発したシステムを用いたデジタル翻刻の実施とその評価に着手できなかったため,タスク実施のための人件費及び成果公表のための費用も発生しなかった.最終年度となる令和1年度ではシステム評価のための人件費,及び成果公表のための旅費として残額を使用する計画である.
|