2011 Fiscal Year Annual Research Report
Project/Area Number |
21500237
|
Research Institution | Nara Women's University |
Principal Investigator |
城 和貴 奈良女子大学, 人間文化研究科, 教授 (90283928)
|
Co-Investigator(Kenkyū-buntansha) |
高田 雅美 奈良女子大学, 人間文化研究科, 助教 (20397574)
|
Keywords | 近代書籍デジタル化 / 文字認識 / アーカイブ / 自動テキスト化 / サポートベクタマシン / 画像処理 / 進化計算 |
Research Abstract |
国立国会図書館近代デジタルライブラリから、出版時期出版元が異なり、青空文庫にて人手によるテキスト化がなされているものを含む10,000タイトルを選出し、出版時期と出版元をパラメータとして1,000種類の漢字のデータセットを作成した。このデータセットに対して一昨年度実装を行った手法(方向寄与度特徴ならびにサポートベクタマシン)を使って実験を行ったところ、テスト・データに対して89%以上の認識率を達成した。以上の研究成果を情報処理学会第87回数理モデル化と問題解決研究会にて口頭発表を行った。このサブテーマを行うのに、当初予期していなかった問題が二つ出てきた。一つは自動文字切り出しが極めて困難であることと、もう一つは裏抜けと呼ばれるノイズの存在である。前者に関しては、近代書籍特有の問題であり、既存手法ではルビの除去が不完全となってしまう。このため、当該研究発表では、1,000種類の近代書籍漢字の認識率よりは、ルビをどのように自動除去したかということを中心に発表を行った。後者に関しては、近代書籍裏面インクが表面まで染み出してしまう現象であり、本課題申請を行った時には全く想定していなかった種類のノイズであった。裏抜けと呼ばれるノイズ除去は困難であり、国内では研究事例が全くなく、欧州で最近になって研究が活発になってきているのが現状である。そこで当該問題を新たなサブテーマとして、進化計算を使って裏抜け除去を行うフィルターを自動生成する研究に着手し、成果の一部を進化計算学会のシンポジウムで発表した。
|
Research Products
(2 results)