1999 年度実績報告書

言語道断型知識発掘システムに関する研究

研究課題

研究課題/領域番号	11480088
研究種目	基盤研究(B)
研究機関	奈良先端科学技術大学院大学
研究代表者	植村俊亮奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)
研究分担者	渡辺正裕国立特殊教育総合研究所, 教育工学研究部, 研究員 (80321595) 吉川正俊奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30182736) 天笠俊之奈良先端科学技術大学院大学, 情報科学研究科, 助手 (70314531) 前田亮日本学術振興会, 特別研究員波多野賢治奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
キーワード	多言語処理 / 情報検索 / 単言語コーパス / 文字符号 / 相互情報量
研究概要	今年度は、主に多言語情報検索の中心的な技術である言語横断情報検索(Cross-Language Information Retrieval)の手法について研究を行った。言語道断情報検索へのアプローチとしては、検索対象文書群をあらかじめ問合せ言語に翻訳する手法、利用者の問合せを検索対象言語に翻訳する手法、多言語シソーラスなどの中間言語を用いる手法などが考えられる。本研究では、入手可能な言語資源にできるだけ依存しないという方針から、比較的入手が容易な機械可読辞書と単言語コーパスを用いる手法を用いた。具体的にはまず機械可読の対訳辞書によって問合せの翻訳を行い、次に検索対象言語の単言語コーパスを用いて訳語の曖昧性を解消する、訳語の曖昧性解消の手法として、検索対象言語の単言語コーパスにおける2単語の相互情報量(Mutual Information)を用いる手法を考案し、実装を行った。この手法を用いて日本語-英語間を対象とした言語道断情報検索の性能評価実験を行い、本手法による訳語曖昧性解消の有効性を確認した。また、多言語情報検索システムにおける索引付けの際に必要な要素技術の一つである文書の言語/符号系の自動識別アルゴリズムについて研究を行った。本アルゴリズムは、まず各符号系の学習データにおける1バイト符号分布の特徴の分析によって識別を行い、それによって識別できなかった文書については、学習データにおける隣接2バイト符号値のベクトル距離の比較を行うことによって言語/符号系を識別する。その成果として、日本語、中国語、韓国語およびヨーロッパ言語で書かれた文書に対して平均98%以上の正解率が得られた。

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] 吉川正俊、志村壮是、植村俊亮: "オブジェクト関係データベースを用いたXML文書の格納と検索"情報処理学会論文誌:データベース. 40. 115-131 (1999)
[文献書誌] 前田亮、関慶妍、植村俊亮: "多言語知識発掘システムの構築"情報処理学会研究報告. 99-DBS-118/99-FI-54. 1-8 (199)
[文献書誌] 阪口哲男、中尾茂岳、前田亮、杉本重雄、田畑孝一: "タグ付き文書を対象とした多言語全文検索システム"情報知識学会第7回研究報告会講演論文集. 49-52 (1999)
[文献書誌] Hachim Haddouti,Akira Maeda,Tetsuo Sakaguchi,Shigeo Sugimoto,and Koichi Tabata: "Towards Arabic Rendering Issuse-MHTML Approach"Proceedings of the Arabic Translation and Localisation Symposium (ATLA'99). (1999)
[文献書誌] Akira Maeda and Shunsuke Uemura: "Key Technologies for Multilingual Information Processing WWW"Proceeding of the Fourth International Symposium on Standardization of Multilingual Information Technology (MLIT-4). (1999)
[文献書誌] M.Yoshikawa,H.Kinutani,Y.Yamamoto,H.Kato and S.Uemura: "Advances in Databases and Multimedia for the New Century-A Swiss/Japanese Perspective-"World Scientfic Publishing. 140 (2000)

1999 年度 実績報告書

言語道断型知識発掘システムに関する研究

研究代表者

植村 俊亮 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)

研究成果

[文献書誌] 吉川正俊、志村壮是、植村俊亮: "オブジェクト関係データベースを用いたXML文書の格納と検索"情報処理学会論文誌:データベース. 40. 115-131 (1999)

[文献書誌] 前田 亮、関 慶妍、植村俊亮: "多言語知識発掘システムの構築"情報処理学会研究報告. 99-DBS-118/99-FI-54. 1-8 (199)

[文献書誌] 阪口哲男、中尾茂岳、前田 亮、杉本重雄、田畑孝一: "タグ付き文書を対象とした多言語全文検索システム"情報知識学会第7回研究報告会講演論文集. 49-52 (1999)

[文献書誌] Hachim Haddouti,Akira Maeda,Tetsuo Sakaguchi,Shigeo Sugimoto,and Koichi Tabata: "Towards Arabic Rendering Issuse-MHTML Approach"Proceedings of the Arabic Translation and Localisation Symposium (ATLA'99). (1999)

[文献書誌] Akira Maeda and Shunsuke Uemura: "Key Technologies for Multilingual Information Processing WWW"Proceeding of the Fourth International Symposium on Standardization of Multilingual Information Technology (MLIT-4). (1999)

[文献書誌] M.Yoshikawa,H.Kinutani,Y.Yamamoto,H.Kato and S.Uemura: "Advances in Databases and Multimedia for the New Century-A Swiss/Japanese Perspective-"World Scientfic Publishing. 140 (2000)

1999 年度実績報告書

植村俊亮奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)

[文献書誌] 前田亮、関慶妍、植村俊亮: "多言語知識発掘システムの構築"情報処理学会研究報告. 99-DBS-118/99-FI-54. 1-8 (199)

[文献書誌] 阪口哲男、中尾茂岳、前田亮、杉本重雄、田畑孝一: "タグ付き文書を対象とした多言語全文検索システム"情報知識学会第7回研究報告会講演論文集. 49-52 (1999)