テキスト文書中の数値情報を対象とした検索を目的とし、そのために必要な処理、特に、数値の属性・話題の抽出問題に取り組んだ。様々なメディアの文書の解析を可能にするために、非構造的テキスト(文章など)と構造的テキスト(表形式など)どちらにも適用可能な数値およびその文脈の抽出手法を提案した。確率モデルを用いた教師なし学習を軸とし、Web文書レイアウト解析と表構造解析による属性や単位の抽出を行ったほか、数値を含む特徴的文字列の抽出手法の開発も行った。また、数値をコード化することで、単語と同様の確率モデルの構築、および、数値表現の索引付けが可能となり、メディアの形式に依らない検索が可能となった。
|