研究概要 |
以下の2点について研究を行った。 1.論文誌のハイパーテキスト化システム 技術論文誌を対象として、文書画像をハイパーテキストデータに自動変換するシステムを構築した。 (1)論理構造化 構文解析的手法により文書画像から論理構造(題名、著者名、章、節などの構造)を抽出する手法を実現した。本手法は、文書画像から得たブロック領域を、56個の書き換え規則を用いたボトムアップチャート法により解析するものである。6論文(61頁)を対象とした実験の結果、論理構造をすべて正しく抽出できた。 リンク生成 ハイパーテキストリンクとして、(a)本文から図表ヘのリンク、(b)本文から章、節へのリンク、(c)参考文献へのリンクを取り上げ、実現した。具体的には、(a),(b)については単語照合を用いた。(c)については137個の書き換え規則を用いて参考文献項目の構文解析を行うことにより構造化したのち、データベース中の書誌情報とリンクを生成した。上記の論文を対象とした実験の結果、(a)〜(c)について、それぞれ88.6%,100%,92.6%の成功率を得た。 2.図とテキストの統合理解と知的検索 文書に含まれる概念図とテキストを統合理解する手法を考案した。本手法は、図認識、自然言語処理の結果を統一的なフレームにより記述し、両者を無矛盾かつ最大に対応付けるように統合するものである。概念図は文書の概要を表すものが多いため、統合の結果に基づいて、文書を知的に検索することが可能となる。 なお、以上のシステム、手法の実験評価には、設備備品として購入したパーソナルコンピュータを使用した。
|