研究課題
萌芽研究
日本語をはじめとするいくつかの東アジア言語の特徴の一つに複合語が頻出することが挙げられ、キーワードによる情報検索の精度を劣化させる原因の一つとなっている。また、自然言語文においては二語以上からなる言い回しがしばしば含まれ、自然言語文による情報検索を難しくする要因の一つとなっている。さらに、日本語に限らず一般に、情報検索の難しさの要因として、同義語や多義語の存在が挙げられる。これらの問題意識のもと、最終年度である平成20年度は、前年度までに検討してきた、(1)語間依存性と関連性を考慮した検索クエリ構築手法、および、(2)自然言語文における語間依存性を考慮した検索クエリ構築手法について、評価および成果の取りまとめを実施した。それぞれについて以下に概要を示す。1.入力クエリを構成する個々の複合語における構成語間の依存関係、並びに、複合語間の依存関係に着目した二段階語間依存性モデルを開発した。これはマルコフ確率場モデルに基づき、入力クエリの構成語の隣接関係を利用して構造化クエリを自動生成する。さらに、二段階語間依存性モデルと適合モデルを組み合わせる方式について検討した。適合モデルは情報検索のための確率的言語モデルの枠組みによってクエリ拡張を実現する技法である。2.自然言語文に対してチャンク(かたまり)同定を行い、チャンク内の語間依存性と、チャンク間の依存性に着目したクエリ構造化手法を設計した。これは上述の二段階語間依存性モデルを、自然言語文クエリを想定して拡張したものであり、係り受け解析の結果を活用して、着目する依存関係を限定することで、計効果的な構造化クエリ生成を実現するものである。以上の提案手法について、JPドメインのウェブデータを利用して、有効性評価を行った。
すべて 2009 2008 2007 2006 その他
すべて 雑誌論文 (14件) (うち査読あり 8件) 学会発表 (7件) 備考 (1件)
電子情報通信学会論文誌 Vol. J92-D, No. 3
ページ: 311-320
110007381171
Advances in Knowledge Discovery and Data Mining : 12th Pacific-Asia Conference, PAKDD 2008 Vol. LNCS-5012
ページ: 705-714
10026806317
Focused Access to XML Documents : 6th International Workshop of the Inilialive for the Evaluation of XML Rclrieval, INEX2007 Vol. LNCS-4862
ページ: 279-292
110006834777
Proceedings of the 2nd ACM Workshop on Improving Non-English Web Searching なし
ページ: 55-62
110006834773
IEICE Transactions on Information and Systems Vol. E91-D, No. 11
ページ: 2589-2598
IPSJ Transactions on Databases Vol. 1, No. 3
ページ: 11-19
130000107988
情報処理学会研究報告 Vol.2008,No.33
ページ: 83-90
110006825048
Proceedings of the International Workshop on Data-Mining and Statistical Science
ページ: 165-178
130008079502
Proceedings of the 16th Text Retrieval Conference (電子媒体)
Pre-Proceedings of the 6th Workshop of the Initiative for the Evaluation of XML Retrieval
ページ: 261-268
情報処理学会データベースとWeb情報システムに関するシンポジウム論文集 (電子媒体)
Information Retrieval Technology, Third Asia Information Retrieval Symposium, Singapore, Lecture Notes in Computer Science Vol.4182
ページ: 522-529
Proceedings of the 15th ACM Conference on Information and Knowledge Management (CIKM 2006), Arlington, Virginia, USA
ページ: 792-793
Proceedings of the 15th Text REtrieval Conference (TREC 2006), Gaithersburg, Maryland, USA
http://www.prmir.scitec.kobe-u.ac.jp/