2012 Fiscal Year Research-status Report
WWW上の多種メディア情報利用のための数値情報解析
Project/Area Number |
24500162
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | The University of Tokyo |
Principal Investigator |
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 表形式 / 数値表現 / テキストマイニング |
Research Abstract |
本年度は、まず、研究の準備として、Web文書データの準備および、Web文書データから表形式データを取り込むためのライブラリ作成を行った。また、テキスト中に存在する数値の傾向を調査するためのツールとして、コーパス中に存在する数値表現から、数値表現の分布グラフを自動的に作成するインターフェースの開発を行った。理論面では、表形式に対するベイズ的確率モデルに関して検討を行った。いくつかのモデルを検討した結果、セル間の依存関係を、表形式全体で統一するのではなく、各セル毎に独立させるという方針で、Pachinko Allocationに基づくモデルを作成することで、表形式の属性・属性値構造を推定できるモデルを考案し、Collapsed Gibbs Samplingを行うことによって、実際にある程度構造推定が行えることを確認した。また、テキスト外にメタデータとして存在する数値情報の活用の可能性に関しても検討を行った。具体的には、テキストに数値情報や位置情報が紐付けられていた場合に、その情報がテキスト中の単語とどのように関連付けられているかをマイニングする手法について研究を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「コーパス取得」「数値情報抽出の実装」「表形式の前処理」等、研究の準備となる部分の実装がある程度完了し、また、次年度以降の課題である「トピックモデルの検討」に関しても、ある程度の見通しが得られた。「数値同義語」に関しては、研究全体として必須ではないため実装が後回しになっているため、これに関しては今年度以降で実装を行いたい。
|
Strategy for Future Research Activity |
当初の計画通り、今年度以降で、提案アプリケーションを実現するための実際の確率モデルとアルゴリズムについて、本格的に検討を行なっていく予定である。また、発展的研究の可能性についても並行して検討していく。
|
Expenditure Plans for the Next FY Research Funding |
当初の計画では、開発用サーバを初年度に購入する予定であったが、トピックモデルに関して検討を進めるにつれ、どのような確率モデルを軸として進めるか(次年度以降での研究課題)を確定し、そのうえで必要メモリ等についても確定するべきであるという判断に至った。このため、サーバ購入に関しては次年度で行う計画である。
|
Research Products
(5 results)