2004 Fiscal Year Annual Research Report
Webの意味構造発見に基づく新しいWeb検索サービス方式に関する研究
Project/Area Number |
16016247
|
Research Institution | Kyoto University |
Principal Investigator |
田中 克己 京都大学, 情報学研究科, 教授 (00127375)
|
Co-Investigator(Kenkyū-buntansha) |
小山 聡 京都大学, 情報学研究科, 助手 (30346100)
田中 浩也 東京大学, 生産技術研究所, 助手 (00372574)
|
Keywords | 話題構造 / Web情報検索 / 同一性発見 / 地域依存度 / ランドマーク / 文脈 / Webマイニング / 地理情報検索 |
Research Abstract |
本研究では、WebデータやWeb利用者のデータ検索行動に内在する意味構造を発見し、これに基づき、高度なWeb情報検索サービスを実現するための方式を開発することを目的として、主に、以下のような項目の研究を行った。 (1)話題構造と詳細度関連にもとづくWeb情報検索と情報統合 あるキーワードをタイトルに含む場合での他キーワードとの共起確率が統計的に有意に高い場合にこの他キーワード語を「詳細語」とみなし、これによってWebページの話題構造を抽出する方式や、キーワード間の共起度辞書とキーワードの出現頻度からWebページの話題構造を発見する方式などを開発した。このようにして得られたWebページの話題構造を用いて、そのページに類似の話題構造や内容を補完するような話題構造を有するWebページを検索する補完情報検索方式の開発・改良を行った。また、多重の詳細度を有するWebページの作成方式についても成果を得た。 (2)オブジェクトの同一性の発見に基づく情報統合 Webページに出現する情報が同一事象を表すものかどうかの判定を、SVMにおいてテンソル積カーネルを用いる方式を開発した。これにより、直接高次元の特徴ベクトルを計算することなしに,実質的に異なる単語の組合せに対する重みを学習できることを発見した。この手法が従来手法に対して適合率・再現率において優っていることが確かめられ、人名の例の場合、中程度の再現率領域において、4〜8倍高い適合率が達成された。 (3)Webからの地域依存度とランドマークの計算 Webページがどの程度地域的に限定されているかを測るため、地理的用語の出現頻度と詳細度,地理用語がカバーする地域範囲と地理用語の密度、固有名詞・地理用語を抜いた場合の他のページとの類似度等から計算する方式を開発・改良し評価実験を行った。また、Webページ中に出現する地理オブジェクト(地名)の共起度と、地理オブジェクト間の距離を用いて、ランドマーク的な地理オブジェクトを発見する手法を開発した。 (4)Webの文脈からのアスペクト発見 Webページをリンク参照している元のページから、「参照の文脈」に関する情報を収集・分類し、「参照の観点」(アスペクト)を自動抽出する方式を開発・改良した。特に、この方式を用いて、Webサーチエンジンの検索結果のページを、その内容の類似度とともに、アスペクトの類似度による自動分類を行うシステムを開発した。
|