研究課題/領域番号 |
15017249
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
理工系
|
研究機関 | 京都大学 |
研究代表者 |
田中 克己 京都大学, 情報学研究科, 教授 (00127375)
|
研究分担者 |
田中 浩也 京都大学, 情報学研究科, COE研究員
角谷 和俊 京都大学, 情報学研究科, 助教授 (60314499)
|
研究期間 (年度) |
2003
|
研究課題ステータス |
完了 (2003年度)
|
配分額 *注記 |
6,400千円 (直接経費: 6,400千円)
2003年度: 6,400千円 (直接経費: 6,400千円)
|
キーワード | World Wide Web / 情報検索 / 半構造データ / 文脈 / Webマイニング / 適合フィードバック / 話題構造 / ローカル度 |
研究概要 |
本研究では、WebデータやWeb利用者のデータ検索行動に内在する意味構造を発見し、これに基づき、高度なWeb情報検索サービスを実現するために、次のような方式の開発を行った。(1)クラスタリングされた検索画像群に対する利用者の選択画像・非選択画像の間の差異情報を増幅させた新しい適合フィードバック方式について評価実験を行い、従来方式と本方式の適切なハイブリッド化に関する知見を得た。(2)サンプル集合中の選択データの相対的な位置関係と最も類似するデータをターゲットとして与えられたデータ集合から自動的に選択する相対的質問の概念とその近似処理方式を開発した。(3)主題語-内容語からなる話題構造を、テレビ映像に付帯する字幕情報、および、Webページから自動的に抽出し、リアルタイムに,類似の話題構造や互いに内容を補完するような話題構造を有するWebページを検索してテレビ映像と連動呈示するシステムや、複数のWebデータの差異を同時に見ることができる新しいブラウザなどの開発を行った。(4)Webページがどの程度地域的に限定されているかを測る尺度として、内容ローカル度と内容の日常度を定義し、前者は、地理的用語の出現頻度と詳細度、地理用語がカバーする地域範囲と地理用語の密度から計算し、後者は、内容の日常性(どの地域にでもその内容が出現している度合い)を固有名詞・地理用語を抜いた場合の他のページとの類似度から計算する方式を開発し、ニュース記事約2000件を対象として評価実験を行った。(5)閲覧中のWebページの「周辺」情報を発見・表示してブラウジングする方式を研究した。さらに、Web上の画像やテキストの意味は、その画像やテキスト自身の有する意味情報に加えて、これらの画像やテキストの周辺にどのような情報が配置かされているかによって推定することが可能と考え、画像やテキストの文脈を、このような周辺情報から推定するために、画像やテキストの周辺の情報、画像・テキストを含む領域の上位領域(Webページの論理構造)、Webページへのリンク元ページの情報をクラスタリングすることで、画像やWebページの様々なアスペクトを発見する方式を開発した。
|