2013 Fiscal Year Research-status Report
WWW上の多種メディア情報利用のための数値情報解析
Project/Area Number |
24500162
|
Research Institution | The University of Tokushima |
Principal Investigator |
吉田 稔 徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)
|
Keywords | テキストマイニング / 数値情報 / 表形式解析 |
Research Abstract |
本年度は、主に数値のモデル化について研究を行った。特に、数値を適切にコード化し処理することで、サンプリング等の技術を用いずに高速な検索が可能になることを発見し、実際に検索システムに応用することを試みた。システム試作の結果、問題なく数値の高速検索が行えることがわかったため、これを今後の数値モデル化に応用することとした。また、Polya Tree確率モデルがこのコード化と相性が良いことを発見し、これを応用した表形式の確率モデルを設計し、サンプリングにより表形式の構造を推定するプログラムを開発した。開発面では、実際に少量のTwitterのデータを用い、開発した確率モデルに基いて、テキスト中の数値表現について属性名を推定することの可能性について検討したが、これについては、確率モデルをより精緻化し、より詳細なカテゴリを付与できるように拡張する必要があるという結論となった。また、最終的な検索システムの出力形式として、カテゴリ名のみならず、表形式そのものを出力するという「数値→表形式検索システム」の可能性についても検討を行った。また、Wikipedia以外の、明示的にカテゴリ情報が与えられていないWeb文書に関してカテゴリ情報の付与を行う「レイアウト解析」についても、処理の高精度化に関する研究を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「数値のカテゴリ名推定」と「文章と文章以外のモデルの統合」の両課題に関し、Wikipediaのカテゴリ情報とトピックモデルを組み合わせることで、統一的に解決することができるという感触を得た。また、「数値トピックモデル」に関して、数値を適切にコード化することにより、離散的に実数値をモデル化する手法を発見し、有効であるという感触を得た。
|
Strategy for Future Research Activity |
提案したモデルを、実際に大規模テキスト解析に用いる際には、モデル自体の複雑性のため、処理に時間を要することが予想される。このため、並列化を含めた高速化手法の検討が必要である。また、モデルの有効性の検証とこれを応用した検索システムの実装に関しては、当初の予定通り進めていく予定である。
|
Expenditure Plans for the Next FY Research Funding |
本年度の研究により、当初計画より効率的なモデルが発見されたため、実際に大規模実験及びデモンストレーションに使用するマシンについて、当該モデルの研究がある程度進み、必要なメモリ量等のスペックが確定してからの購入が望ましいと判断したため。 提案モデルの性質についてある程度知見が得られつつあるため、早い段階で大規模実験及びデモンストレーション用のマシンを購入する。
|
Research Products
(2 results)