研究概要 |
1.参照形態の分析・分類 文書のテキストから図,表,写真,テキストへの参照の形態を分析した。その結果,参照形態は,(1)直接的参照,(2)順序による参照,(3)配置による参照,(4)文脈による参照,(5)近接による参照の5種類に分類できること,またこれらを組み合わせた参照もあることが分かった。 2.複数頁を対象とした文書画像理解システムの構築 技術論文のハイパーメディア化には,技術論文の全頁を対象とする処理が必要である。このとき,図,表など頁内の位置が不定なものの分離抽出法,文書の全頁を対象とした論理構造の抽出法が問題となる。本研究では,(1)文学認識の結果を用いて図表のキャプションを抽出した後,キャプションの位置を手がかりに図表の本体を抽出する手法,(2)全頁に含まれる文字列を読み順にソ-トし,その結果を構文解析して論理構造を抽出する手法を開発した。また,これらの2手法に基づいて,技術論文の全頁を処理可能な文書画像理解システムを構築した。 3.概念図理解システムの構築 技術論文にしばしば含まれる概念図を対象に,図理解システムを構築した。本システムの特徴は,図に記述された概念,および概念間の関係という高次の情報を抽出する点にある。抽出された概念は,キーワードとして登録され,テキストとの参照構造の抽出に用いられる。 4.参照構造の抽出とハイパーメディア化 参照形態(1),(2),(5)を対象に,参照構造を抽出する手法を開発した。具体的には,(a)図表を図表番号に基づいてテキストとリンクする処理,(b)章,節を参照するテキストを,章,節の本体とリンクする処理,(c)著者照会文と写真を,頁領域における両者の近さに基づいてリンクする処理などを実現した また,図,表、写真の画像,本文の文字認識結果,および抽出したリンクを入力とし,HTML形式のデータを得るシステムを開発し,Mosaicなどのブラウザで表示可能とした。
|