研究概要 |
本年度はテキストの圧縮率を用いて,文書間のトピックの重なりの関係に注目し,文書間の関係を会析する方法を検討した.従来のアプローチほ,形態素解析法を基礎とする自然言語処理を用いるのが普通であるが,本手法はそれら自然言語処理を全く行わずに実現している.また,意図的に文書間の関係を構成できるモデル文書を導入し,これを提案手法の実験,検証,改良に用いた.得られた手法を実際の文書に適用する実験も行い,提案手法の有効性を確認した.圧縮寧に注目することで,類似文書のクラスタリング,不要語の除去,共通トピックの把握など,全て同じフレームワークで実現することができる可能性を実証できた. 次に,本手法の基礎となる圧縮率空間構築法に関して,圧縮率空間の分類能力を保存したまま,その次元数を縮小する対話的手法を検討した.本手法は,適用対象を圧縮率空間に限定したものではあるが,k-means法と比較して,クラス総数のような,結果として得たい量の事前股定を必要としないこと,対話的次元縮小によって分類能力を保持したまま特徴空間の次元縮小が行えることなどが特徴である,モデル文書と突文書を用いた実験によって,これらの特徴を実証した.なお,小規模なデータにおいて異言語,異コードの下でも以上のような特性を発揮できることを確認した.
|