研究課題
昨年度は以下の3つのトピックについて研究を行った。a)ウェブ上の新鮮な情報を検索する新しいメソッドの開発b)ウェブ上の未来に関連する情報およびニュース記事の抽出と解析c)ウェブ上の過去に関連する情報の抽出a)ユーザクエリに適合したウェブ上の新鮮な情報を獲得する新しいメソッドを2つ提案した。1つめのメソッドでは、同じクエリに対するウェブページとニュースのコンテンツを比較し、ニュースコンテンツにはユーザのクエリに関係ある重要な出来事を見つけ出すためにクラスタリングを行った。2つめのメソッドは、サーチインターフェースをマイニングすることによって最新の情報を発見するもので、対象のクエリに結合されている最新の表現(例えば、「最近」、「最新」)を含む単語と、過去に関連する表現(「古い」、「アーカイブ」、「2005年」など)を含むクエリの検索結果を解析・比較することで、最新の単語と過去の単語の分別を可能にした。b)未来に関連する情報を効果的に得るために、まず特別なクエリを作成して新鮮度が高いであろう情報を取得し、得られた情報にフィルタリングと解析を行った。これによって、過去についての情報や、実際に未来と関係のない情報を予測できるようになった。また、将来に関連する情報の分布の解析や、ウェブ上に書き込まれる未来と関係のある典型的なトピックスの抽出、将来おこなわれる、もしくは今後行われる可能性のあるメジャーなイベントを導き出すクラスタリングの手法も提案した。このメソッドのインプットにはニュース記事から抽出された未来についての文章を用いた。c)ニュース記事から過去に関連するセンテンスのメイントピックを見つけるために、潜在的ディリクレ配分法を用いた。指定した年度に関連するニュースの中から過去に関係する情報を取り出し、国によって歴史をどのように記憶にとどめているかの相違を明らかにした。
2: おおむね順調に進展している
昨年度の研究計画についてはおおむね順調に進んでいるといえる。昨年度はウェブの検索結果がフォーカスを当てている時間軸を取り出すシステムを構築し、未来に関連するセンテンスをクラスタリングすることで将来行われるイベントを特定する手法や、ニュース記事で頻繁に取り上げられる過去に行われた人気のあったイベントを見つけ出すためのアプローチを紹介することができた。また、ウェブ文書のタイムスタンプを決定する手法については今後も研究を継続する予定である。
今後の研究においては、ユーザークエリの背後に意図された時間軸を探索することにフォーカスを当てていくつもりである。まずアマゾンタークを用いて大規模な調査を行い、ウェブ検索時にユーザーが求める標準的な時間軸の検出を行う。次にクエリの背後にある時間軸を、主にテキスト上の日付情報の共起性に基づいて自動的に検出する手法を見出していく予定である。
すべて 2011 その他
すべて 雑誌論文 (6件) (うち査読あり 6件) 学会発表 (4件) 備考 (1件)
IEICE Transactions on Information and Systems
巻: 94-D(3) ページ: 564-577
巻: 94-D(3) ページ: 552-563
20th ACM Conference on Information and Knowledge Management (CIKM 2011)
巻: CIKM 2011 ページ: 1231-1240
10.1145/2063576.2063755
巻: CIKM 2011 ページ: 1259-1264
10.1145/2063576.2063759
2011 ACM Symposium on Applied Computing
巻: SAC 2011 ページ: 1151-1158
10.1145/1982185.1982437
2011 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology
巻: WI 2011 ページ: 278-283
10.1109/WI-IAT.2011.250
http://www.dl.kuis.kyoto-u.ac.jp/~adam/index.html