研究概要 |
文書推敲支援,知的文書分類,データベースシステムの自然言語インタフェースなどの実用化では,数万項目以上の自然言語辞書が必要であり,今後この項目数は増加する一方である.このような大規模辞書の大きさと検索速度は自然言語処理システム全体のパフォーマンスに大きな影響を与えるので,コンパクトで且つ高速な検索技術の確立は非常に重要な課題であると考えられる.本研究では,最長一致検索が非常に高速に行えるが,コンパクト性や2次記憶上でのファイル管理がまだ十分でなかったトライ構造に着目して,コンパクト性を改良するデータ構造と効率的な動的2次記憶管理アルゴリズムを提案し,研究代表者既に構築していた日本語と英語の辞書,及び実験使用権を得ているEDR(日本電子化辞書研究所)の概念辞書を合わせた約50万項目の辞書で提案手法の有効性を評価した. べた書きの日本語文からのキ-を見つけるためには,最長一致検索が必要不可欠であるので,トライ検索手法が有効であるが,現状はトライ構造に関するコンパクトなデータ構造が確立していないので,辞書順に並べキ-を順検索する古典的な手法が利用されており,十分な検索効率は決して得られているとは言えない.従って,本研究成果は,これら国内外特に大規模日本語辞書の検索に対して十分貢献するものと思われる.
|