2008 年度実績報告書

文書集合における潜在的意味に着目した特徴量選択手法の提案について

研究課題

研究課題/領域番号	20860085
研究機関	東京都立産業技術高等専門学校
研究代表者	横井健東京都立産業技術高等専門学校, ものづくり工学科, 助教 (40469573)
キーワード	特徴量抽出 / 自然言語処理 / テキストマイニング / トピック抽出
研究概要	平成20年度は大規模文書集合におけるトピック抽出方法とそれらを用いた索引語選別手法の開発と検討を行った。まず、トピックの抽出手法では、大規模な文書集合を分割し、それぞれの部分集合から得られた似通ったトピックの統合を行った。また、新聞記事を用いた評価実験を実施した結果、ある一定の精度でのトピック抽出を効率的に実施できた。さらにトピックを用いた新たな索引語選別手法では、取得したトピックにおける重要語(キーワード)に対して、それらと共起する単語に着目することで、文書集合中において数が少ない文書に含まれるトピックの索引語も抽出することができた。この手法では、従来、頻度情報等では漏れてしまっていたキーワードについても選別できた。文書集合を表現するという用途においては、それらの単語もまた重要であると考えられる。さらに、上記結果について、学会発表等で研究成果の公表を実施した。本研究で扱っているトピックに着目することは、従来の単語に基づいた文書処理に対して、単語だけでは表現できなかった潜在的な特徴量に着目することができる。その結果、従来手法では漏れてしまっていた重要と思われる情報にも重みを付けることができると考えられる。また、上記手法により、今後、インターネットを初めとしたネットワーク上に存在する膨大な文書情報やその他、さまざまな文書情報の整理などにトピックを用いることができるようになると考えられる。

研究成果
(2件)

すべて学会発表 (2件)

[学会発表] Topic Extraction from Divided Document Sets2009
- 著者名/発表者名
  横井健
- 学会等名
  5th International Conference on Web Information Systems and Technologies
- 発表場所
  Lisbon, Portugal
- 年月日
  2009-03-24
[学会発表] Information Filtering using Index Word Selection based on the Topics2009
- 著者名/発表者名
  横井健
- 学会等名
  World Congress on Science, Engineering and Technology 2009
- 発表場所
  Penang, Malaysia
- 年月日
  2009-02-27