2006 Fiscal Year Annual Research Report
Project/Area Number |
17700024
|
Research Institution | Hokkaido University |
Principal Investigator |
喜田 拓也 北海道大学, 大学院情報科学研究科, 助教授 (70343316)
|
Keywords | テキストアルゴリズム / 文字列照合 / オントロジー / 半構造化データ / 情報検索 / 接尾辞木 |
Research Abstract |
本研究では、オントロジー情報などの背景知識を考慮することで、より知的な文字列照合を行うアルゴリズムの開発を目指している。具体的には、電子的に利用可能な分類階層データベースやシソーラス情報、文章構造といったオントロジー情報を利用して動作する照合アルゴリズムを開発し、それらの統合を行う。また、それ以外のオントロジー情報についても調査を行い、知的検索のための利用を模索する。申請者はこれまでに分類階層情報を考慮した文字列照合アルゴリズムに加え、Arc情報が付加された文字列照合アルゴリズムについて取り組み、それぞれ有効なアルゴリズムを得ている。 本年度は、より効率よく文字列照合を行うための索引構造の構築に取り組んだ。接尾辞木は文字列の任意の部分文字列をコンパクトに索引付けするデータ構造であるが、その大きさは入力文字列の長さに比例するため、巨大なデータに対しては実際上用いることが困難である。そこで、索引付けする文字列を単語区切りに限定し、数単語分の部分文字列のみを索引構造に含めたより省スペースな接尾辞木を提案し、これを効率よく構築するアルゴリズムを得た。この成果は、検索対象とする文字列に区間情報(プロパティ)が付随する場合の効率よい検索のための索引構造構築への布石となる。
|
Research Products
(1 results)