技術マニュアルを利用者が必要な内容を迅速にアクセスできるようにすることは、単なる電子化だけでは達成できない。この研究では、必要な内容を検索できる電子化マニュアルの基礎となる技術について検討した。 (1)重要語抽出:マニュアルの内容への道標となるのはそのマニュアルにおける用語である。従来、人手によって行なわれていた用語抽出を何らかの客観的基準によって自動抽出する方法を検討し、候補語の連接方式によるランク付けと窓方式による選択を組み合わせた方式を提案し、他の方式と比較した。提案した方式は日本語の技術マニュアルにおいて実験したところ高いパフォーマンスを示した。 (2)数値情報抽出:技術文書一般の問題として考えると、数値に係わる情報は極めて価値が高い。一方、数値情報は形態素解析などの文書処理で抽出しやすい。そこで、ここでは、数値情報とそれに付随する情報を言語パターンのマッチングによって抽出する方法を提案し、実験システムを作成した。個別の情報は80%程度の精度で抽出できることが確かめられた。 (3)複合語による情報検索:利用者が内容検索するとき、マニュアルでは多くの用語が複合語であるので、従来の単語ベースの検索を複合語ベースの検索に拡大する必要がある。ここでは、複合語に高いスコアを与える方法を考案し、共起情報も加味した情報検索エンジンを試作した。BMIR-Jlというテストコレクションでtf^*idfを上回る性能を得た。 (4)自動ハイパーテキスト化:マニュアルの関連部分をリンクで結んだハイパーテキストは内容に沿って読み進むとき読みてにとって役立つ指標になる。このようなハイパーテキスト化を自動的に行なうシステムを開発した。
|