2014 年度研究成果報告書

ＷＷＷ上の多種メディア情報利用のための数値情報解析

研究課題

研究課題/領域番号	24500162
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知能情報学
研究機関	徳島大学 (2013-2014) 東京大学 (2012)
研究代表者	吉田稔徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	数値情報抽出 / レイアウト解析
研究成果の概要	テキスト文書中の数値情報を対象とした検索を目的とし、そのために必要な処理、特に、数値の属性・話題の抽出問題に取り組んだ。様々なメディアの文書の解析を可能にするために、非構造的テキスト（文章など）と構造的テキスト（表形式など）どちらにも適用可能な数値およびその文脈の抽出手法を提案した。確率モデルを用いた教師なし学習を軸とし、Web文書レイアウト解析と表構造解析による属性や単位の抽出を行ったほか、数値を含む特徴的文字列の抽出手法の開発も行った。また、数値をコード化することで、単語と同様の確率モデルの構築、および、数値表現の索引付けが可能となり、メディアの形式に依らない検索が可能となった。
自由記述の分野	テキストマイニング