研究課題/領域番号 |
24500162
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 徳島大学 (2013-2014) 東京大学 (2012) |
研究代表者 |
吉田 稔 徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
研究課題ステータス |
完了 (2014年度)
|
配分額 *注記 |
5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2014年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2013年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2012年度: 2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
|
キーワード | 数値情報抽出 / レイアウト解析 / 表形式解析 / 数値表現解析 / テキストマイニング / 数値情報 / 表形式 / 数値表現 |
研究成果の概要 |
テキスト文書中の数値情報を対象とした検索を目的とし、そのために必要な処理、特に、数値の属性・話題の抽出問題に取り組んだ。様々なメディアの文書の解析を可能にするために、非構造的テキスト(文章など)と構造的テキスト(表形式など)どちらにも適用可能な数値およびその文脈の抽出手法を提案した。確率モデルを用いた教師なし学習を軸とし、Web文書レイアウト解析と表構造解析による属性や単位の抽出を行ったほか、数値を含む特徴的文字列の抽出手法の開発も行った。また、数値をコード化することで、単語と同様の確率モデルの構築、および、数値表現の索引付けが可能となり、メディアの形式に依らない検索が可能となった。
|