1999 Fiscal Year Annual Research Report
Project/Area Number |
11480088
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
植村 俊亮 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)
|
Co-Investigator(Kenkyū-buntansha) |
渡辺 正裕 国立特殊教育総合研究所, 教育工学研究部, 研究員 (80321595)
吉川 正俊 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30182736)
天笠 俊之 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (70314531)
前田 亮 日本学術振興会, 特別研究員
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
|
Keywords | 多言語処理 / 情報検索 / 単言語コーパス / 文字符号 / 相互情報量 |
Research Abstract |
今年度は、主に多言語情報検索の中心的な技術である言語横断情報検索(Cross-Language Information Retrieval)の手法について研究を行った。言語道断情報検索へのアプローチとしては、検索対象文書群をあらかじめ問合せ言語に翻訳する手法、利用者の問合せを検索対象言語に翻訳する手法、多言語シソーラスなどの中間言語を用いる手法などが考えられる。本研究では、入手可能な言語資源にできるだけ依存しないという方針から、比較的入手が容易な機械可読辞書と単言語コーパスを用いる手法を用いた。具体的にはまず機械可読の対訳辞書によって問合せの翻訳を行い、次に検索対象言語の単言語コーパスを用いて訳語の曖昧性を解消する、訳語の曖昧性解消の手法として、検索対象言語の単言語コーパスにおける2単語の相互情報量(Mutual Information)を用いる手法を考案し、実装を行った。この手法を用いて日本語-英語間を対象とした言語道断情報検索の性能評価実験を行い、本手法による訳語曖昧性解消の有効性を確認した。 また、多言語情報検索システムにおける索引付けの際に必要な要素技術の一つである文書の言語/符号系の自動識別アルゴリズムについて研究を行った。本アルゴリズムは、まず各符号系の学習データにおける1バイト符号分布の特徴の分析によって識別を行い、それによって識別できなかった文書については、学習データにおける隣接2バイト符号値のベクトル距離の比較を行うことによって言語/符号系を識別する。その成果として、日本語、中国語、韓国語およびヨーロッパ言語で書かれた文書に対して平均98%以上の正解率が得られた。
|
Research Products
(6 results)
-
[Publications] 吉川正俊、志村壮是、植村俊亮: "オブジェクト関係データベースを用いたXML文書の格納と検索"情報処理学会論文誌:データベース. 40. 115-131 (1999)
-
[Publications] 前田 亮、関 慶妍、植村俊亮: "多言語知識発掘システムの構築"情報処理学会研究報告. 99-DBS-118/99-FI-54. 1-8 (199)
-
[Publications] 阪口哲男、中尾茂岳、前田 亮、杉本重雄、田畑孝一: "タグ付き文書を対象とした多言語全文検索システム"情報知識学会第7回研究報告会講演論文集. 49-52 (1999)
-
[Publications] Hachim Haddouti,Akira Maeda,Tetsuo Sakaguchi,Shigeo Sugimoto,and Koichi Tabata: "Towards Arabic Rendering Issuse-MHTML Approach"Proceedings of the Arabic Translation and Localisation Symposium (ATLA'99). (1999)
-
[Publications] Akira Maeda and Shunsuke Uemura: "Key Technologies for Multilingual Information Processing WWW"Proceeding of the Fourth International Symposium on Standardization of Multilingual Information Technology (MLIT-4). (1999)
-
[Publications] M.Yoshikawa,H.Kinutani,Y.Yamamoto,H.Kato and S.Uemura: "Advances in Databases and Multimedia for the New Century-A Swiss/Japanese Perspective-"World Scientfic Publishing. 140 (2000)