研究課題/領域番号 |
16K02433
|
研究機関 | 豊田工業高等専門学校 |
研究代表者 |
早坂 太一 豊田工業高等専門学校, 情報工学科, 准教授 (50314092)
|
研究分担者 |
加藤 弓枝 豊田工業高等専門学校, 一般学科, 准教授 (10413783)
大野 亙 豊田工業高等専門学校, 電気・電子システム工学科, 准教授 (60321444)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | 深層学習 / くずし字 / 文字認識 / WWWアプリケーション / 組み込みシステム |
研究実績の概要 |
国文学研究資料館古典籍共同研究事業センターにより構築が進められている「日本語の歴史的典籍データベース」は、これを有効活用することで、異分野を融合させた研究の展開も期待されるが、いかに資料が集積されたとしても、多くの研究者にとっては、書かれている文字が「くずし字」であることが障壁となる。本研究は、世界的に注目されている人工知能技術である、ディープラーニングを用いたくずし字の自動翻刻システムの構築を目的とする。 『日本古典籍字形データセット』をはじめとするオープンデータから40万字以上のくずし字画像を利用してモデルを学習させた。そして、同じくオープンデータとして公開されている「源氏物語・桐壺」に対して、ディープラーニングによる認識の精度を算出したところ、変体仮名に対して95%以上、漢字等に対して70%以上、平均で92%以上の認識結果を示すことができた。 また、古典籍の画像データを読み込み、マウス等で選択された1文字分の変体仮名を翻刻するアプリケーションを、教育用ワンボードマイコンRaspberry Piを利用して作製した。読み込まれた画像に対し画像処理を施し、学習されたモデルに入力することで、認識確率が最も高い文字をオーバーレイ表示できる。1文字あたりの認識にかかる時間は約2秒であるが、くずし字認識を「組み込みシステム」として実現できる可能性を示したことは、スマートフォンを持ち込めない小中学校でも導入できるくずし字認識専用機器を開発できることを示唆しており、社会的有用性の視点から評価できると考えられる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
くずし字の認識については、昨年度までの変体仮名のみならず、漢字も含めて、交付申請書内でも目標とした90%以上の精度を示すことができ、それをWWWアプリケーションとして実装することができた。また、国内学会においてデモンストレーションを行い、概ね良い評価を得ている。 また、学習に用いるくずし字画像については、国立情報学研究所からオープンデータとして提供されているものも合わせて、約40万字を入手できている。
|
今後の研究の推進方策 |
今後は、ソフトウェアのプラグイン(Web API)化、複数のくずし字の切り分けなどが、やるべきこととして挙げられる。
|
次年度使用額が生じた理由 |
今年度も民間企業からの奨学寄附金を頂くことができたことから、物品費、旅費、謝金について、余剰が出た。これらについては次年度に消化し、研究成果につなげていく予定である。
|