2008 Fiscal Year Annual Research Report
Webからの数式情報・図形情報の獲得および利用に関する研究
Project/Area Number |
18650029
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
村田 剛志 Tokyo Institute of Technology, 大学院・情報理工学(系)研究科, 准教授 (90242289)
|
Keywords | Web / 数式検索 / MathML |
Research Abstract |
平成20年度においては、Webページ上の数式を検索するための手法についての研究を進めた。数式はあらゆる学問分野において、重要な要素の記述に用いられている。しかし、数式を対象とした検索に関する研究は不十分ではない。従来のテキスト検索技術であるTF-IDF等では単語の出現頻度に基づいているため、数式の構造(例えばsinを含んだ積分式においてsinが積分記号の内側か外側かなど)を反映した検索が困難であつた。この研究ではテキストではなくMathML (Mathematical Markup Language)を利用して、数式の構造を反映した検索を実現するシステムを構築した。また、検索結果を提示するにあたっては、対象の重要度に応じたランキングを行うことが不可欠である。数式の検索者が求める数式の性質として、「単純な数式」および「指定した条件が分かりやすく表れた数式」の二つを仮定し、そのような性質を満たす数式を上位にするランキング手法を考案し実装した。The Wolfram Functions Siteより収集した約8,OOO個の数式を用いて検索の実験を行ったところ、設計した問い合わせ言語を正しく認識し結果を出力することを確認した。また、提案したランキング手法を比較し、数式における適切なランキングについての考察も行った。
|