2008 Fiscal Year Annual Research Report
Project/Area Number |
19300032
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 National Institute of Informatics, コンテンツ科学研究系, 教授 (90216648)
|
Keywords | テキスト処理 / トピックモデル / 機械学習 |
Research Abstract |
本研究は、複数の人間が係わるプロジェクトで生成・収集される各種情報を共有し活用するための情報共有システムの構築法を考案することを目的としている。特に時間情報を考慮した、時系列文書の処理技術に焦点をあてて、情報共有システムを構築することをめざしている。 平成20年度は、まず、大規模な時系列文書モデルとして潜在トピックから文書のタイムスタンプと語彙の両方を同時に出力するモデルを構築した。タイプスタンプの情報を用いることによって、時間情報を考慮した文書生成モデルとなっている。また、モデルの精度を向上させるためには、文書中のすべての単語を用いる代わりに、より情報量の多い固有名の抽出法について検討を進めた。 また、モデルの応用システムとして、ブログデータを対象とし、スパムブログを検出するための手法の研究を行った。この研究では、まず、ブログ中に重複して現れる比較的長い部分文字列を効率よく抽出する方法を提案した。そして、この部分文字列をスパムブログを検出するための重要な特徴として用いることによって、精度よく大規模データからスプログをフィルタリングするシステムを構築した。
|