2018 Fiscal Year Research-status Report
人工知能による日本の歴史的典籍の自動翻刻システムの構築およびその活用に関する研究
Project/Area Number |
16K02433
|
Research Institution | National Institute of Technology, Toyota College |
Principal Investigator |
早坂 太一 豊田工業高等専門学校, 情報工学科, 准教授 (50314092)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 弓枝 鶴見大学, 文学部, 准教授 (10413783)
大野 亙 豊田工業高等専門学校, 電気・電子システム工学科, 准教授 (60321444)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 深層学習 / くずし字 / 文字認識 / WWWアプリケーション / 組み込みシステム |
Outline of Annual Research Achievements |
国文学研究資料館古典籍共同研究事業センターにより構築が進められている「日本語の歴史的典籍データベース」は、これを有効活用することで、異分野を融合させた研究の展開も期待されるが、いかに資料が集積されたとしても、多くの研究者にとっては、書かれている文字が「くずし字」であることが障壁となる。本研究は、世界的に注目されている人工知能技術である、ディープラーニングを用いたくずし字の自動翻刻システムの構築を目的とする。 『日本古典籍字形データセット』をはじめとするオープンデータから40万字以上のくずし字画像を利用してモデルを学習させた。そして、同じくオープンデータとして公開されている「源氏物語・桐壺」に対して、ディープラーニングによる認識の精度を算出したところ、変体仮名に対して95%以上、漢字等に対して70%以上、平均で92%以上の認識結果を示すことができた。 また、古典籍の画像データを読み込み、自動的に抽出されるくずし字を翻刻するアプリケーションを、教育用ワンボードマイコンRaspberry Piを利用して作製した。1文字あたりの認識にかかる時間は約0.4秒と、昨年度より劇的に改善された。スマートフォンを持ち込むことができない小・中学校や、普段モバイル機器を持ち歩かない高齢者の方々でも、くずし字に触れたいという場面に遭遇することは少なくないと考えられる。ネットワーク環境のない場所も含めて、そうした現場で支援ツールとして活躍することができるよう、本システムの操作性や認識精度をより高めることが今後の課題である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
学習に用いるくずし字画像については、民間企業からも提供を受けており、国立情報学研究所からオープンデータとして提供されているものも合わせて、深層学習に有効に利用できている。 また、文書画像から複数のくずし字を抽出することも可能となっており、システムとしても順調に開発が進んでいると考えられる。
|
Strategy for Future Research Activity |
今後は、システムの完成度を上げると共に、開発されたシステムの評価、および社会への展開方法についての検討などが挙げられる。
|
Causes of Carryover |
民間企業からの奨学寄附金を頂くことができたことから、物品費、旅費、謝金について、余剰が出た。これらについては次年度に消化し、研究成果につなげていく予定である。
|
Research Products
(4 results)