2019 Fiscal Year Annual Research Report
Study on the development and the utilization of automatic interpretation system of Japanese ancient documents
Project/Area Number |
16K02433
|
Research Institution | National Institute of Technology, Toyota College |
Principal Investigator |
早坂 太一 豊田工業高等専門学校, 情報工学科, 准教授 (50314092)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 弓枝 鶴見大学, 文学部, 准教授 (10413783)
大野 亙 豊田工業高等専門学校, 電気・電子システム工学科, 准教授 (60321444)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | くずし字 / テキスト検出 / 文字認識 / 深層学習 / スタンドアロン |
Outline of Annual Research Achievements |
国文学研究資料館により平成26年度より開始された「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」[1]では,研究基盤整備として約30万点の歴史的典籍を画像データ化し,既存の書誌情報データと統合させたデータベースの構築を行っている.あらゆる分野の書籍が含まれる膨大な画像データを有効活用できれば,例えば津波や噴火等の天変地異の歴史を教訓とした防災研究のように,人文科学のみならず自然科学系分野を融合させた研究の展開も期待される.しかしながら多くの研究者にとっては,それらに書かれている文字が「くずし字」であることが障壁となる. 古典籍におけるくずし字翻刻に関する研究では深層学習を利用したアプローチが盛んである.本研究では,国文学研究資料館が作成し,ROIS-DS人文学オープンデータ共同研究センターが公開している110万字を超えるくずし字データセットにデジタルアーカイブシステムADEAC内の古典籍画像から抽出した字形データ約26,000字を加えて,16ビットUnicodeにくずし字を分類する畳み込みニューラルネットワークの学習を行った.その結果,版本のテストデータではそれほど影響が見られなかった認識率について,写本のテストデータに対しては明らかな向上が見られた.この学習モデルを利用して,古典籍の画像データを読み込み,マウスや指で選択された1文字分のくずし字を翻刻するWWWアプリケーションを開発し,公開した. さらに,そのモデルをシングルボードコンピュータRaspberry Piに実装することで,複数のくずし字を一括して自動検出し,認識を行うことのできるスタンドアロンシステムを開発した.インターネットへの接続を必要としないため,小中学校での教育や古民家での調査などの場面で手軽に利用でき,くずし字翻刻の支援ツールとして活躍することが期待できる.
|
Remarks |
中日新聞2020年1月27日夕刊9面にて研究成果が紹介された。 「くずし字AIで活字に 豊田高専 翻刻システム開発」
|