2018 Fiscal Year Research-status Report
Ubiquitous information retrieval technologies for digital archives of historical characters and Kao signatures.
Project/Area Number |
18K00972
|
Research Institution | J. F. Oberlin University |
Principal Investigator |
耒代 誠仁 桜美林大学, 総合科学系, 准教授 (00401456)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 古文書字形検索 / 古文書解読支援 / 機械学習 / Webアプリケーション |
Outline of Annual Research Achievements |
2018年度の最も大きな成果として、機械学習を利用した古文書解読支援技術をWebサイトで公開するための技術開発を行ったことをあげる。これは、東京農工大学中川正樹研究室および国文学研究資料館との共同研究として実施したものである。申請者が過去に実装に書か渡った古文書字形検索システムMOJIZOでの設計、実装を応用した技術であり、既存のWebサーバに対して外部ライブラリの導入などの大きな改修を要求しない点が特徴としてあげられる。複数の文字で構成される文字列の画像をend-to-endで処理できる点は、機械学習を用いたメリットとなる。現時点では近世を中心としたくずし字の仮名文字列を検索対象としているが、技術手的には漢字混じりの文字列に拡張可能である。 古文書解読支援のための画像処理については、新しいノイズ除去手法を搭載したユーザーサイドアプリケーションの公開に向けて作業を進めている。信州大学白井啓一郎研究室との共同研究となる。2018年度の段階で公開には至らなかったが、近日中には動作可能な形で公開できる見込みである。 字形検索精度の向上に不可欠となる字形画像データの整備・拡充については、国内外研究機関からの協力を得る目途を立てることができた。これは、申請者が参加している別の科研費での活動との相乗効果によるものである。 以上の通り、3年間に渡る科研費での活動に必要な土台の構築を図ることができた。今後は研究成果のアウトプットに向けて応用的な活動を行っていきたいと考えている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」欄で述べた通り、2018年度については機械学習による成果をWebサイトで公開するための技術開発、画像処理アプリケーションの公開に向けた作業、文字画像データの利用に向けた他研究機関との連携などを行うことができた。 機械学習については、再起的な確率の評価が可能なRCNの利用により、識別対象間での関係性を考慮した字形の解読支援を行うことができるものである。これは実質的には文脈処理まで含めた高水準の解読技術を内包するものであり、古文書解読支援における一つのブレークスルーになるものといえる。ただし、機械学習が普及しつつある現代においても、クライアントサイドにおける動作環境の構築は容易とはいえない。Webアプリケーション化はその問題を解決する手段となり得るが、Webサイト側での大幅な改修が必要になるとサイト運営者側にとっての困難が発生する。このような運用面での問題を解決し、利用者に利益を提供することができる技術を実現できた点は進捗として大きかったと考えている。 画像処理については、現在のIT技術の水準に照らして再検討した結果、これまでの申請者の研究方針を堅持し、クライアントサイドでの実装を継続することにした。こちらも前述の通りであるが、できるだけ早く利用者に研究成果を届けられるよう活動を継続していく。 字形画像については、他研究機関との提携を基礎として整備・拡充を行う目途が立った。こちらについては機械学習での利用、画像処理の精度向上など多面的な効果が期待できる。 ただし、3年間の研究活動を見据えた基盤づくりに注力した結果、研究成果発表については多くをこなすことができなかった。その点については次年度以降の課題として引き継いでいきたいと考えている。
|
Strategy for Future Research Activity |
今後の活動として、初年度の成果と活動を活かした応用的な研究に注力していきたいと考えている。 機械学習のWebアプリケーション化を進める研究については、漢字を含む認識対象の拡充、および認識対象となる古文書の種類を多数の近世くずし文書、およびくずし字以外の古文書に広げる場合の対応について検証し、技術面での進歩を達成したい。また、古文書デジタルアーカイブとのネットワーク連携を達成し、認識技術から検索サービスへの用法転換を図っていきたい。 画像処理については、パラメータ設定の簡素化を図るための技術を実現していきたい。また、適用可能な古文書画像の拡大についても引き続き検討を続け、技術面での進歩を達成したい。また、アプリケーションの動作環境についても、画面設計の自由度が高いパーソナルコンピュータ上だけでなく、操作、画面サイズなどの制限が大きいスマートフォン上でも動作可能な形にしていきたい。申請者がこれまで継続して研究を進めてきたiOS用アプリの実装に関するノウハウも反映していきたいと考えている。 画像データの整備・拡充については、前述の機械学習における認識対象の拡大、画像処理の設計、実装、および検証など全体的に影響するものである。既に連携した機関との共同作業を通して画像点数とカバーする古文書の範囲を広げていきたい。また、他の期間との連携模索も積極的に行っていきたい。 以上を通じて、2年目以降は一定数の研究報告を行うと共に、論文発表の点数も増やしていきたいと考えている。
|
Causes of Carryover |
2018年度は3年間の研究計画の中における基盤構築に時間と労力を要した結果、研究発表件数について多数をこなすことができなかった。この点については2019年度でカバーしていく予定である。これに伴い、次年度使用額については、研究発表に必要となる費用(旅費、機器の準備など)に充てる。
|
Remarks |
上記は本報告にて記載した他機関との連携(申請者が参加する別の科研費を主体として実施)に関する参考資料となります。同プレスリリースには当方もシステム開発の担当者として列席させていただきました。
|
Research Products
(3 results)