2007 Fiscal Year Annual Research Report
Project/Area Number |
18650057
|
Research Institution | Kobe University |
Principal Investigator |
江口 浩二 Kobe University, 大学院・工学研究科, 准教授 (50321576)
|
Keywords | 情報検索 / クエリ構造化 / 語間依存性モデル / グラフィカルモデル / 確率的言語モデル |
Research Abstract |
今年度は、自然言語文における語間依存性を考慮した検索クエリ構築手法について検討した。日本語をはじめとするいくつかの東アジア言語の特徴の一つに、複合語が頻出することが挙げられる。また、自然言語文においては二語以上からなる言い回しがしばしば含まれる。これらは自然言語文による情報検索を難しくする要因の一つとなっている。 そこで、まず、自然言語文に対してチャンク(かたまり)同定を行い、チャンクにおける構成語間の依存関係に着目した。さらに、チャンク間の依存関係に着目するが、組み合わせ爆発を回避するために、係り受け解析によって依存関係が認識された場合にのみ、そのチャンク間の依存関係を考慮した。このようにして、自然言語文におけるチャンク内の語間依存性と、チャンク間の依存性に着目する、クエリ構造化手法を設計した。これは平成18度に開発した二段階語間依存性モデルを、自然言語クエリを想定して拡張したものであり、従来手法のように語が互いに独立であるという非現実的な仮定によらず、マルコフランダム場モデルで表現される自然言語クエリの構成語の隣接関係のうち、自然言語解析を活用して、着目する依存関係を限定することで、計算量を軽減した効果的な構造化クエリ生成を実現するものである。JPドメインのウェブコンテンツからなるテストコレクションを利用して、有効性評価の予備実験を行った。
|