研究概要 |
近年,文書作成ソフトウェアの向上は目覚ましいものがあり,しかも二次記憶装置の大容量化と低価格化に伴って,大量に構築された電子化文書から目的とする文書データを高速に検索するアルゴリズムの研究が盛んに行われている.しかしながら,これまでの用例検索の研究は,類似用例を検出するために索引に与えるべき情報とその抽出に関する議論が主であり,大規模用例検索における効率的な検索と絞り込みを中心に議論した研究は見あたらない. 本研究は,過去数年にわたって行われた次の研究成果をもとに実施された. 1.文書検索のために必要となるキ-(索引)検索手法は,自然言語辞書検索技法として,開発された高速トライ検索法を拡張して,開発を完了した. 2.1.で必要となるキ-の情報(文字列,品詞,意味分類コードなど)の抽出を,研究代表者の形態素解析技術により構築した. 3.実験対象となる大規模文書データは,日本電子化辞書研究所の辞書ファイル,及び岩波書店の広辞苑テキストファイルの使用ライセンス契約を結び,利用可能な状況とし,1.ソフトウェアとと2.のキ-情報の評価実験システムを開発した.
|