研究課題/領域番号 |
11480088
|
研究種目 |
基盤研究(B)
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
植村 俊亮 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)
|
研究分担者 |
渡辺 正裕 国立特殊教育総合研究所, 教育工学研究部, 研究員 (80321595)
吉川 正俊 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30182736)
天笠 俊之 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (70314531)
前田 亮 日本学術振興会, 特別研究員
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
|
キーワード | 多言語処理 / 情報検索 / 単言語コーパス / 文字符号 / 相互情報量 |
研究概要 |
今年度は、主に多言語情報検索の中心的な技術である言語横断情報検索(Cross-Language Information Retrieval)の手法について研究を行った。言語道断情報検索へのアプローチとしては、検索対象文書群をあらかじめ問合せ言語に翻訳する手法、利用者の問合せを検索対象言語に翻訳する手法、多言語シソーラスなどの中間言語を用いる手法などが考えられる。本研究では、入手可能な言語資源にできるだけ依存しないという方針から、比較的入手が容易な機械可読辞書と単言語コーパスを用いる手法を用いた。具体的にはまず機械可読の対訳辞書によって問合せの翻訳を行い、次に検索対象言語の単言語コーパスを用いて訳語の曖昧性を解消する、訳語の曖昧性解消の手法として、検索対象言語の単言語コーパスにおける2単語の相互情報量(Mutual Information)を用いる手法を考案し、実装を行った。この手法を用いて日本語-英語間を対象とした言語道断情報検索の性能評価実験を行い、本手法による訳語曖昧性解消の有効性を確認した。 また、多言語情報検索システムにおける索引付けの際に必要な要素技術の一つである文書の言語/符号系の自動識別アルゴリズムについて研究を行った。本アルゴリズムは、まず各符号系の学習データにおける1バイト符号分布の特徴の分析によって識別を行い、それによって識別できなかった文書については、学習データにおける隣接2バイト符号値のベクトル距離の比較を行うことによって言語/符号系を識別する。その成果として、日本語、中国語、韓国語およびヨーロッパ言語で書かれた文書に対して平均98%以上の正解率が得られた。
|