研究分担者 |
渡辺 正子 京都大学, 工学部, 教務職員 (70127158)
大田 友一 筑波大学, 電子・情報工学系, 教授 (50115804)
廣瀬 勝一 京都大学, 工学部, 助手 (20228836)
天野 晃 京都大学, 工学部, 助手 (60252491)
美濃 導彦 京都大学, 工学部, 助教授 (70166099)
|
研究概要 |
本研究は,自由書式文書を対象として,データの入力時に人間が介入することなく,検索索引を自動的に生成する文書画像データベースを構築することを目的とする.最終年度である今年度は,以下のような研究を行うと共に,全体のとりまとめを行った. ・同一文字列中の文字は単一色から構成されているという仮定のもとに,カラー文書画像に対して色のクラスタリングを適用することにより,文字パタンを抽出した. ・文字認識結果を仮説として表現することのできる文字ラティスに対して,与えられた文字列の出現位置を同定するアルゴリズムを理論的に考察し,具体的な2種類の実装を示した. ・文字切り出しの評価値として使える文字認識の確信度を改良した.具体的には,類似文字の集合を定義し,これを考慮に入れた確信度を作った.これにより文字切り出し率が向上した. ・ユーザのキーワード想起を支援する文書検索システムを作成した.このシステムは,「話題」を抽出して,データベースの概要を示す.また,キーワードの候補を提示して,候補選択による検索質問の作成を可能にする. ・カタログの仕様一覧表の構造解析,文字認識処理をした後,表の属性に対する値の書式を利用した文字認識後処理をして数字や記号の文字認識処理の正解率を高めた.さらに,その結果をデータベースに登録し,検索実験を行った.
|