研究課題
今年度は、自然言語文における語間依存性を考慮した検索クエリ構築手法について検討した。日本語をはじめとするいくつかの東アジア言語の特徴の一つに、複合語が頻出することが挙げられる。また、自然言語文においては二語以上からなる言い回しがしばしば含まれる。これらは自然言語文による情報検索を難しくする要因の一つとなっている。そこで、まず、自然言語文に対してチャンク(かたまり)同定を行い、チャンクにおける構成語間の依存関係に着目した。さらに、チャンク間の依存関係に着目するが、組み合わせ爆発を回避するために、係り受け解析によって依存関係が認識された場合にのみ、そのチャンク間の依存関係を考慮した。このようにして、自然言語文におけるチャンク内の語間依存性と、チャンク間の依存性に着目する、クエリ構造化手法を設計した。これは平成18度に開発した二段階語間依存性モデルを、自然言語クエリを想定して拡張したものであり、従来手法のように語が互いに独立であるという非現実的な仮定によらず、マルコフランダム場モデルで表現される自然言語クエリの構成語の隣接関係のうち、自然言語解析を活用して、着目する依存関係を限定することで、計算量を軽減した効果的な構造化クエリ生成を実現するものである。JPドメインのウェブコンテンツからなるテストコレクションを利用して、有効性評価の予備実験を行った。
すべて 2008 2007
すべて 雑誌論文 (5件) (うち査読あり 2件) 学会発表 (2件)
情報処理学会研究報告 Vol.2008,No.33
ページ: 83-90
Proceedings of the International Workshop on Data-Mining and Statistical Science
ページ: 165-178
Proceedings of the 16th Text Retrieval Conference (電子媒体)
Pre-Proceedings of the 6th Workshop of the Initiative for the Evaluation of XML Retrieval
ページ: 261-268
情報処理学会データベースとWeb情報システムに関するシンポジウム論文集 (電子媒体)