2008 年度実績報告書

文長にみる言語の確率分布

研究課題

研究課題/領域番号	20520389
研究機関	徳島大学
研究代表者	石田基広徳島大学, 総合科学部, 准教授 (40232318)
キーワード	テキストマイニング / 言語学 / 確率論
研究概要	本年度は、統計量を求めるためのテキスト・データベースの整備を中心に行い、国内外のサイトからフリーのテキストデータを収集するとともに、独自に入力作業を行い、全体として百を超えるテキスト・データを独自に整備し終えた。このデータベースがら、文長、すなわち文中の語数や句数を求め、その確率分布を検討するが、この作業を大最のテキストを対象にひとつひとつ行っていたのでは非常に効率が悪い。そこで、本研究遂行のためのソフトウェアを独自に開発した。これはフリーの解析環境として世界的に普及の進んでいるRのアドインパッケージとして開発したため、誰でも自由に利用できるソフトウェアとなった。このソフトウエは下記のURLで一般にも公開している。作成されたソフトウェアを通して、テキストデータの試行的な解析を進めた。目的は、抽出された統計量の確率分布が、過去に欧米や日本で提案されてきた分布に適合するかを検証することである。その結果、対数正規分布などの適合度はきわめて悪く、さらに単純なポアソン分布や負の二項分布では、テキスト・データの頻度情報を正しくシミュレーションできないことが明らかになった。また日本語と欧米語では、言語構造が異なるため、何を単位にとるかという問題があるが、過去においては主に理論的、あるいは演繹的な仮定が立てられ、それに基づいた分析が行われてきた。これに対して本研究では、逆に、単位ごとの確率分布を比較することで、日本語と欧米語の単位の類似性を明らかにしようとしている。この作業は進行中であるが、欧米語で提唱されている節を単位とした頻度情報は、日本語テキストには不適切なことが明らかになった。

研究成果
(3件)

すべて 2008 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 図書 (1件) 備考 (1件)

[雑誌論文] Text Mining in R : Rober Parker's Comments on Bordeaux Red Wine2008
- 著者名/発表者名
  石田基広
- 雑誌名
  
  Proceedings of Joint Meeting of 4^<th> World Conference of International Association of Statistical Computlng 1
  
  ページ: 664-670
- 査読あり
[図書] R によるテキストマイニング入門2008
- 著者名/発表者名
  石田基広
- 総ページ数
  178
- 出版者
  森北出版
[備考]
- URL
  http://groups.google.co.jp/group/rmecab