2016 Fiscal Year Research-status Report
人工知能による日本の歴史的典籍の自動翻刻システムの構築およびその活用に関する研究
Project/Area Number |
16K02433
|
Research Institution | National Institute of Technology, Toyota College |
Principal Investigator |
早坂 太一 豊田工業高等専門学校, 情報工学科, 准教授 (50314092)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 弓枝 豊田工業高等専門学校, 一般学科, 准教授 (10413783)
大野 亙 豊田工業高等専門学校, 電気・電子システム工学科, 准教授 (60321444)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 深層学習 / くずし字 / 文字認識 / WWWアプリケーション |
Outline of Annual Research Achievements |
国文学研究資料館古典籍共同研究事業センターにより構築が進められている「日本語の歴史的典籍データベース」は、これを有効活用することで、異分野を融合させた研究の展開も期待されるが、いかに資料が集積されたとしても、多くの研究者にとっては、書かれている文字が「くずし字」であることが障壁となる。本研究は、世界的に注目されている人工知能技術である、ディープラーニングを用いたくずし字の自動翻刻システムの構築を目的とする。 『日本古典籍字形データセット』をはじめとするオープンデータから6万字以上の変体仮名画像を利用してモデルを学習させた。そして、オープンデータとして公開されている「源氏物語」等、いくつかの歴史的典籍内の変体仮名に対して、ディープラーニングによる認識の精度を算出したところ、いずれも90%以上の結果を示すことができた。 また、古典籍の画像データを読み込み、マウス等で選択された1文字分の変体仮名を翻刻するWWWアプリケーションを作製した(http://vpac.toyota-ct.ac.jp/kuzushiji/)。読み込まれた画像に対し画像処理を施し、学習されたモデルに入力することで、平仮名ごとの認識確率が円グラフとして表示される。表示については、クライアント側の計算機環境に依存するが、サーバ側で1文字あたりの認識にかかる時間は約0.4秒であった。高性能なハードウェアやGPGPUを利用しなくとも、十分な演算速度による翻刻が実現できることが確認できた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
変体仮名の認識については、交付申請書内でも目標とした90%以上の精度を示すことができ、プロトタイプとしてではあるが、WWWアプリケーションとしての実現を達成できた。 また、学習に用いるくずし字画像については、国立情報学研究所からオープンデータとして提供されているものも合わせて、約10万字を抽出できている。 さらに、近隣の学校でのくずし字に関する出前授業の際に、どのようなアプリケーション・ソフトウェアを望むかといったアンケートも行い、仕様を策定している途中である。
|
Strategy for Future Research Activity |
今後は、漢字を含めたくずし字の認識、ソフトウェアのプラグイン(Web API)化、複数のくずし字の切り分け、ソフトウェアだけでなく、ハードウェア(組込みシステム)としてのくずし字認識システムの開発などが、やるべきこととして挙げられる。
|
Causes of Carryover |
主に国内旅費および謝金に繰り越しが生じた。これは、学会発表およびくずし字抽出のための謝金について、実際の支払額が少なかったことによるものである。物品費については,他の補助金により充当されたことが大きな原因である。
|
Expenditure Plan for Carryover Budget |
今年度の学会発表のための旅費およびくずし字抽出のための謝金に利用する予定である。物品費については,ワークステーション購入に充てる予定である。
|
Remarks |
中日新聞2016年11月2日朝刊13面「古典籍のくずし字翻刻 コンピュータ技術で楷書体に」という記事において、本研究の取り組みが紹介された。
|
Research Products
(3 results)