研究概要 |
キーワードによる質問で,望みのテキストあるいは画像を含む日本語ホームページが取り出せる検索手法を確立することが主目的である。必要な処理は,テキストからのキーワード抽出,画像へのキーワード付与,不要なキーワードの除去,キーワードの概念見出し語への置換およびテキストや画像の概念的ランキングである。本年度の実績を以下にまとめる。加えて,検索ポータルサイト構築の準備も行った。 「テキストの扱いに関して」 (1)キーワードの抽出:テキストのキーワードとしては,名詞句のうち,相対的出現頻度の重み順に従う上位20個までを抽出すればほぼ十分であると分かった。 (2)キーワードの概念見出し語への置換と概念的ランキング:ウェブサイトYahooやGoogleの概念体系をもとに,中の概念見出し語それぞれに同義語を加えて拡張した概念辞書を編集した。この概念辞書を用いてキーワードを概念見出し語に変換した後,質問との概念的な類似性に従いホームページをランキングするとすると,検索効率が上昇することを確認した。 「画像の扱いに関して」 (1)キーワードの付与:画像に対するキーワードは,多数のユーザが協調して付与するようにした。付与を容易にする仕組みに特徴がある。具体的には,キーワードを付与しようとする画像をタイプ分けし,この情報をもとに既にそのタイプに属させられている画像のキーワードを概念的にまとめて提示するようにした。画像タイプとして5種類を考えれば十分であることが分かった。 (2)不要キーワードの除去:多数のユーザによる付与からくる雑音を除去するため,EDR電子化辞書を利用した概念的フィルタリング法(頻度高く生じる概念見出し語を生まないキーワードを除去する)を定式化し,その有効性を実験的に確かめた。 (3)概念見出し語への置換と概念的ランキング:画像のキーワードをもとに,テキストと同様に扱うようにした。
|