研究分担者 |
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
天笠 俊之 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (70314531)
吉川 正俊 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30182736)
石川 正敏 島根県立大学, 総合政策学部, 助手 (90332973)
渡邉 正裕 国立特殊教育総合研究所, 情報教育研究部, 助手 (80321595)
|
研究概要 |
本研究はある言語で表現されたネットワーク上の情報資源に対して,それとは別の言語を使って問い合わせを行ない,必要な知識を獲得することのできるような多言語知識発掘システムの開発を目的としている.今年度は以下の項目について研究を行なった. ・昨年度に引き続き,文書と検索語の記述言語に依存しない文書検索方式の開発を進めた.具体的には,対訳辞書を用いた検索語の翻訳手法,および統計的手法を用いた効果的な多義性の除去方法によって,検索語を対象言語に翻訳することによってこれを実現する.今年度は,多言語コーパスを用いた多義性除去,問合せ拡張,適合性フィードバック等の複数の手法を効果的に組み合わせる手法を提案し,これまでと比べて検索精度を向上することができた. ・大量に発生する多言語HTML文書,多言語XML文書を効率良く管理するためのXMLデータベースアーキテクチャを検討した.まず,一般に広く普及している関係データベースを用いてこれらの文書を格納,検索する手法を開発た.さらにプロトタイプシステムを実装し,その有効性を検証した. ・多言語の電子文書を扱う際,システムにあらかじめフォントを用意しなくても検索,表示が可能となるようなフォント埋め込み型多言語文書データモデルを開発した.文書の記述にはXMLを用い,文書内容を表わす全文テキストに加えて,文書の見た目を表現するためのビットマップデータ,外字フォント,メタデータ等を含んでいる.漢字文献を対象に,提案モデルに基づいたプロトタイプシステムを実装し,その有効性を検証した、
|