研究概要 |
昨年度までの研究では表記された文書の意味的な類似性に基づく分類型の文書検索の研究開発を進めてきたが,本年度は,これまでの研究をさらに発展させ,日本語の文書が発音された際の音声の類似性の観点から文書検索を行えるように検索システムを拡張する研究開発を行った. 具体的には,英語で標準的に用いられている手法を拡張し,日本語の音声を考慮した発音照合を行うアルゴリズムを開発し,評価を行い,得られた研究成果を情報処理学会自然言語処理研究会において報告した. さらに,本年度は,オーストラリア・RMIT大学のJ Shane Culpepper講師とFalk Scholer講師とともにNTCIR-9の検索タスクGeoTimeと検索タスクINTENTに参加し,言語に依存しない文書索引付の手法とランク付けの手法について研究開発を行った. 本年度参加した情報検索システムの評価型ワークショップNTCIR-9では,GeoTime(地理的・時間的情報の検索)タスクの英語と日本語の新聞記事データ,および,INTENT(検索意図)タスクの日本語のWeb文書データに対して,言語に依存しない文書索引付の手法の実現可能性を検証できた.また,文字列の曖昧性や多義性を解消するため,日本語版のWikipediaを用いた類義語の定義の手法を検討し,GeoTime(地理的・時間的情報の検索)タスクとINTENT(検索意図)タスクにおいて,類義語を用いた検索質問拡張について検討した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は,実用的な検索性能を持つ多言語対応の分類型検索システムの開発を目的としており,現在までの研究で,日本語以外の言語に対応できるようにシステムの拡張を行い,情報アクセス技術の研究促進を目的とした評価型ワークショップNTCIRに参加して,検索システムの評価を行うことができている.特に,評価型ワークショップNTCIRに参加できたことは本研究の全体構想の中でも特に重要な意義があり,研究計画通りにこれを達成できていることから,本研究は順調に進展していると言える。
|
今後の研究の推進方策 |
NTCIRの参加により得られた知見を今後の研究において積極的に活用し,当初の研究計画通りに,多言語対応の分類型検索システムの研究を進めていく予定である.現在までのところ,研究計画の変更や研究遂行上の問題点は生じていない.今後の研究において,日本語,および,日本語以外の言語を対象とした,多言語対応の分類型検索システムの検索有効性の評価を効率よく進めるため,日本語以外の母語話者との議論と情報交換を継続的に進めていくとともに,過去のNTCIRワークショップで構築されたテストコレクションを活用したシステム評価についても検討していく予定である.
|