本年度は,昨年度までに予備的検討を進めてきた日本語の発音照合の手法を改良し,オープンソースソフトウエアのデータベース管理システムPostgreSQLのユーザ定義関数として実装を行い,評価を行った.発音照合は,類似文字列検索の手法のひとつであり,文字列の綴りではなく,文字列が発音された音声の類似性に基づく検索の手法である.英語における先行研究では,文字列編集距離と発音照合を組み合わせた情報検索の有効性が明らかにされていることから,本研究では,英語で提案されている手法の日本語化と日本語の文書検索における発音照合の有効性評価に取り組んだ.具体的には,まず,昨年度までの研究で開発してきた日本語の発音照合の符号化表の拡張と改良を行い,発音照合の手法をデータベース管理システムの動的ロード可能オブジェクトとして実装し,動作の検証を行った.さらに,昨年度までの研究で文書検索の評価に使用した情報検索システムのテストコレクションを使用して,文字列編集距離と日本語の発音照合を組み合わせた手法の有効性評価を行い,得られた知見をSIGIR2012 Workshop (OSIR2012)で報告した. また,本年度は,海外の共同研究者とともに予備的検討を進めてきた文字n-gramを用いた言語に依存しない文書索引付の手法の検索効率性と検索有効性を検証するための評価実験を行い,得られた結果に基づく検討を行った.具体的には,過去の情報検索システムの評価型ワークショップNTCIR7/8 IR4QAで構築されたテストコレクションを用いて,言語に依存しない文書索引付の手法の評価方法を検討し,次に,種々の文書類似度の尺度を用いて,文字n-gramを用いた検索手法と,転置索引を用いた従来法との比較を行った.
|