2008 Fiscal Year Annual Research Report

文長にみる言語の確率分布

Research Project

Project/Area Number	20520389
Research Institution	The University of Tokushima
Principal Investigator	石田基広 The University of Tokushima, 総合科学部, 准教授 (40232318)
Keywords	テキストマイニング / 言語学 / 確率論
Research Abstract	本年度は、統計量を求めるためのテキスト・データベースの整備を中心に行い、国内外のサイトからフリーのテキストデータを収集するとともに、独自に入力作業を行い、全体として百を超えるテキスト・データを独自に整備し終えた。このデータベースがら、文長、すなわち文中の語数や句数を求め、その確率分布を検討するが、この作業を大最のテキストを対象にひとつひとつ行っていたのでは非常に効率が悪い。そこで、本研究遂行のためのソフトウェアを独自に開発した。これはフリーの解析環境として世界的に普及の進んでいるRのアドインパッケージとして開発したため、誰でも自由に利用できるソフトウェアとなった。このソフトウエは下記のURLで一般にも公開している。作成されたソフトウェアを通して、テキストデータの試行的な解析を進めた。目的は、抽出された統計量の確率分布が、過去に欧米や日本で提案されてきた分布に適合するかを検証することである。その結果、対数正規分布などの適合度はきわめて悪く、さらに単純なポアソン分布や負の二項分布では、テキスト・データの頻度情報を正しくシミュレーションできないことが明らかになった。また日本語と欧米語では、言語構造が異なるため、何を単位にとるかという問題があるが、過去においては主に理論的、あるいは演繹的な仮定が立てられ、それに基づいた分析が行われてきた。これに対して本研究では、逆に、単位ごとの確率分布を比較することで、日本語と欧米語の単位の類似性を明らかにしようとしている。この作業は進行中であるが、欧米語で提唱されている節を単位とした頻度情報は、日本語テキストには不適切なことが明らかになった。

Research Products
(3 results)

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Book (1 results) Remarks (1 results)

[Journal Article] Text Mining in R : Rober Parker's Comments on Bordeaux Red Wine2008
- Author(s)
  石田基広
- Journal Title
  
  Proceedings of Joint Meeting of 4^<th> World Conference of International Association of Statistical Computlng 1
  
  Pages: 664-670
- Peer Reviewed
[Book] R によるテキストマイニング入門2008
- Author(s)
  石田基広
- Total Pages
  178
- Publisher
  森北出版
[Remarks]
- URL
  http://groups.google.co.jp/group/rmecab