研究課題/領域番号 |
17H01829
|
研究機関 | 奈良女子大学 |
研究代表者 |
城 和貴 奈良女子大学, 生活環境科学系, 教授 (90283928)
|
研究分担者 |
高田 雅美 奈良女子大学, 生活環境科学系, 講師 (20397574)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 文字認識 / ディープラーニング / デジタルアーカイブ / 知識処理 |
研究実績の概要 |
ドメインユーザ用の学習データとして日本産婆学会誌と帝国議会会議録を対象にデータ収集を始めた。日本産婆学会誌の方は資料提供者から約1000ページの資料を貸してもらい、手動スキャンして画像データにした。帝国議会会議録の方は全ての画像データをダウンロードして、自動的に文字画像収集できるシステムを開発中である。対象を帝国議会会議録に絞ることでレイアウト解析が簡単になるため、専用のレイアウト解析手法を開発している。 統合的文字認識システムの構築に関しては、その前段階として既存フォントから未知フォントを自動生成するシステムを構築した。これは特定の出版者では収集できる文字種が限られていることから、利用可能な文字画像から収集できない文字種を自動生成するものであり、CNNと逆CNNを使った独自のディープラーニングニューラルネットを構築した。現在のところ汎化能力は不十分であるが、学習データに関しては99%以上の再現率を記録している。 近代文語体を現代口語体に翻訳するサブテーマでは、Seq2Seqを使って予備実験を行っているが、文語体と口語訳の対データを15000集めて学習させたものの、まだ十分な成果は出せていない。これは予定していた近代公文書現代口語訳プロジェクトの始動が遅れてデータの提供を受けられない状態が続いたため、急きょ対象を森鴎外の作品に絞ってデータ収集を行ったためである。近代公文書現代口語訳プロジェクトからのデータ供給はいつになるか分からないため、現代語訳の手に入りやすい近代文学作品に対象を変えることを検討している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
平成26年度からの科研(近代書籍自動テキスト化支援環境の構築)で開発した支援システムを使ってドメインユーザ用の文字画像収集を行う予定であったが、ハードウェアの障害により別のハードウェアにシステムを移動しなければならなくなった。ところが、ハードウェア・システムソフトウェア・プログラミング環境全ての条件が一致するものは用意することができず、新しい環境でポーティング作業を行ったところ、予想を遥かに超えるバグが発見され、今現在支援環境は使えない状況が続いている。そのため、ドメインユーザ用の学習データ収集が行えていない。また近代文語体と現代口語体の自動翻訳は、学習データを公文書現代口語訳プロジェクトから供給してもらう予定であったが、その組織もなかなか機能せず、データがない状況が続いていたので、急遽対象を森鴎外作品に絞って予備実験を行っている状態である。
|
今後の研究の推進方策 |
近代書籍自動テキスト化支援システムの再開発に関しては、平成30年度に専任の研究員を雇い、再開発してもらうことにした。ドメインユーザ用の学習データ収集は開発後に行うことになる。 統合的文字認識システムの構築に関しては、平成30年度にはセマンティックセグメンテーションをレイアウト解析に適用したディープラーニングニューラルネットを構築する予定である。 近代文語体と現代口語体の自動翻訳は、現代語訳の手に入りやすい近代文学作品を対象に現在の手法を適用していく予定である。
|