国立国会図書館近代デジタルライブラリから、出版時期出版元が異なり、青空文庫にて人手によるテキスト化がなされている10タイトルを選出し、10タイトル全てに含まれている漢字256種類を抽出した。10タイトルの画像データと青空文庫のテキストデータから当該256種類の漢字を自動的に切り出すツールを実装し、256種類の漢字*10出版社のデータセットを作成した。このデータセットに対して昨年度実装を行った手法(方向寄与度特徴ならびにサポートベクタマシン)を使って実験を行ったところ、テスト・データに対して92%以上の認識率を達成した。以上の研究成果を情報処理学会第82回数理モデル化と問題解決研究会にて口頭発表を行った。また昨年度より検討を行っていた近代デジタルライブラリ・ポータルの設計が完成したため、情報処理学会第81回数理モデル化と問題解決研究会いて口頭発表を行った。来年度には近代デジタルライブラリから1万タイトルを選出し、大規模な認識実験を行う予定であるので、その数値計算用に1TFLOPSのGPU計算サーバを整備した。
|