2009 Fiscal Year Annual Research Report
Project/Area Number |
19300032
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 National Institute of Informatics, コンテンツ科学研究系, 教授 (90216648)
|
Keywords | テキスト処理 / トピックモデル / 機械学習 |
Research Abstract |
本研究は、複数の人間が係わるプロジェクトで生成・収集される各種情報を共有し活用するための情報共有システムの構築法を考案することを目的としている。特に時間情報を考慮した、時系列文書の処理技術に焦点をあてて、情報共有システムを構築することをめざしている。平成21年度は、まず、平成20年度に考案した時系列文書モデルの改良を行った。前年度に考案したモデルでは、パラメタの事前分布を固定としていたが、本年度は事前分布のパラメタについても訓練データから推測する方法を考案した。そして、新聞記事のなかからトピックの変遷を抽出するための評価コーパスを用いて提案手法を評価した。その結果、これまでに提案されている同種の手法と比較して、同等以上の性能が得られることを示した。とくに既存手法でパラメタチューニングが必要になるのに対して、提案手法はチューニングコストが低減できる点が実用的な観点からは優れている。 また、紙ベースのテキスト情報を利用するために、OCRで処理されたテキストの活用法についての検討を行った。OCR処理された資料の特徴として、文字認識結果に誤りが含まれていることがあげられる。このような誤りを含むテキストからトピック抽出を行うため、OCRの誤りパターンを確率モデルで記述する方法を検討した。研究代表者は、以前にこのような研究を行っていたが、本研究で進めているトピック抽出法との親和性を高めるため、同様の確率モデルを構築し、そのパラメタ推定法の研究を行った。その結果、事前分布を用いた確率モデルは、OCRの誤りモデルのスムージングに効果があることが判明した。
|
Research Products
(5 results)