2011 Fiscal Year Annual Research Report
Project/Area Number |
22700096
|
Research Institution | Kyoto University |
Principal Investigator |
ADAM Jatowt 京都大学, 情報学研究科, 特定准教授 (00415861)
|
Keywords | 時間情報 / 時間情報解析と獲得 / 将来関連情報 / 新鮮さによるサーチ結果のランキング |
Research Abstract |
昨年度は以下の3つのトピックについて研究を行った。 a)ウェブ上の新鮮な情報を検索する新しいメソッドの開発 b)ウェブ上の未来に関連する情報およびニュース記事の抽出と解析 c)ウェブ上の過去に関連する情報の抽出 a)ユーザクエリに適合したウェブ上の新鮮な情報を獲得する新しいメソッドを2つ提案した。1つめのメソッドでは、同じクエリに対するウェブページとニュースのコンテンツを比較し、ニュースコンテンツにはユーザのクエリに関係ある重要な出来事を見つけ出すためにクラスタリングを行った。2つめのメソッドは、サーチインターフェースをマイニングすることによって最新の情報を発見するもので、対象のクエリに結合されている最新の表現(例えば、「最近」、「最新」)を含む単語と、過去に関連する表現(「古い」、「アーカイブ」、「2005年」など)を含むクエリの検索結果を解析・比較することで、最新の単語と過去の単語の分別を可能にした。 b)未来に関連する情報を効果的に得るために、まず特別なクエリを作成して新鮮度が高いであろう情報を取得し、得られた情報にフィルタリングと解析を行った。これによって、過去についての情報や、実際に未来と関係のない情報を予測できるようになった。また、将来に関連する情報の分布の解析や、ウェブ上に書き込まれる未来と関係のある典型的なトピックスの抽出、将来おこなわれる、もしくは今後行われる可能性のあるメジャーなイベントを導き出すクラスタリングの手法も提案した。このメソッドのインプットにはニュース記事から抽出された未来についての文章を用いた。 c)ニュース記事から過去に関連するセンテンスのメイントピックを見つけるために、潜在的ディリクレ配分法を用いた。指定した年度に関連するニュースの中から過去に関係する情報を取り出し、国によって歴史をどのように記憶にとどめているかの相違を明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度の研究計画についてはおおむね順調に進んでいるといえる。昨年度はウェブの検索結果がフォーカスを当てている時間軸を取り出すシステムを構築し、未来に関連するセンテンスをクラスタリングすることで将来行われるイベントを特定する手法や、ニュース記事で頻繁に取り上げられる過去に行われた人気のあったイベントを見つけ出すためのアプローチを紹介することができた。また、ウェブ文書のタイムスタンプを決定する手法については今後も研究を継続する予定である。
|
Strategy for Future Research Activity |
今後の研究においては、ユーザークエリの背後に意図された時間軸を探索することにフォーカスを当てていくつもりである。まずアマゾンタークを用いて大規模な調査を行い、ウェブ検索時にユーザーが求める標準的な時間軸の検出を行う。次にクエリの背後にある時間軸を、主にテキスト上の日付情報の共起性に基づいて自動的に検出する手法を見出していく予定である。
|