2006 Fiscal Year Annual Research Report
Webからの数式情報・図形情報の獲得および利用に関する研究
Project/Area Number |
18650029
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
村田 剛志 東京工業大学, 大学院情報理工学研究科, 助教授 (90242289)
|
Keywords | 検索語 / SearchSpy / 相関係数 / 話題検出と追跡 |
Research Abstract |
2005年現在のWebページは100億以上と言われており、膨大なコンテンツが存在するが、このWebから数式情報や図形情報を検索することは容易ではない。例えば「sin2θ+cos2θ=1」の証明方法についてYahoo!やGoogleなどの検索エンジンで調べるためには、関連するキーワード(「三角関数、公式」など)を人間が想起して入力する必要がある。また平面幾何の推論で用いられる図形情報の検索(例えば「sin(α+β)=sinαcosβ+cosαsinβ」の証明で用いる図形を検索するなど)は現状では非常に困難である。本研究課題では、数式情報や図形情報をWebから獲得して幾何推論に利用する知的システムの構築を目標とする。 本年度においては、上記の目標を達成するための第一歩として、検索語データの取得および分析に関する研究を主として行った。Yahoo!やGoogle等の検索エンジンに入力される検索語データは、検索エンジン会社のキーワード広告等のビジネスと密接に結びついているため、入手が困難である。検索データを公開しているサイトとしてSearchSpyがあげられる。このサイトから検索データを定期的に取得し、分析を行った。頻度による分析では、1998年のSilversteinらによるAltaVistaの検索語分析と比べて、MyspaceやEbayなどのサイトを訪れるためだけのナビゲーショナルな目的での検索が増えていることがわかった。また、複数の検索語の相関係数や、時事ニュースに対応した検索回数の盛り上がりに注目した分析も行った。また、検索語データ等の時系列データを扱うための手法として、話題検出と追跡(Topic Detection and Tracking)に関する実験も行なった。
|