2009 Fiscal Year Annual Research Report
文書集合における潜在的意味に着目した特徴量選択手法の提案について
Project/Area Number |
20860085
|
Research Institution | Tokyo Metropolitan College of Industrial Technology |
Principal Investigator |
横井 健 Tokyo Metropolitan College of Industrial Technology, ものづくり工学科, 助教 (40469573)
|
Keywords | 特徴量抽出 / 自然言語処理 / テキストマイニング / トピック抽出 / 情報フィルタリング |
Research Abstract |
平成21年度は平成20年度に開発した大規模文書集合におけるトピック抽出方法とそれらを用いた索引語選別手法のより深い検討と選別された索引語(特徴量)を情報フィルタリングへ応用することで、上記の索引語選別手法の有用性を検証した。まず、索引語選別手法のより一層の検討では、索引語選別の基となるトピックの抽出方法や結合方法、トピック数、また、結合の様子などを観察することで、その特性を検証した。また、平成20年度に実施した検証とは違ったデータを用いた検討も実施した。次に、トピックに基づいた索引語選別の有用性を検証するために、選別された索引語を用いて文書の新たな表現を行い、その表現方法の上でユーザの興味情報に基づいた情報フィルタリング手法を適用した。その結果、上記のトピックに基づいて選別された索引語を用いた情報フィルタリング手法は、MEDLINEを用いた実験において、単語の出現頻度に基づいた索引語選別やすべての索引語を用いた手法、また、従来次元圧縮で利用されているLSA(Latent Semantic Analysis)と比較を行ったところ、フィルタリング精度の改善を確認することができた。この結果、本研究で提案したトピック(潜在的意味)に基づいた索引語選別手法の有用性を確認することができたと考えられる。さらに、上記結果について、論文や学会発表等で研究成果の公表を実施した。 また、上記手法により、今後、インターネットを初めとしたネットワーク上に存在する膨大な文書情報やその他、さまざまな文書情報の整理などにトピックを用いることができるようになると考えられる。
|