2009 Fiscal Year Annual Research Report
Project/Area Number |
20520389
|
Research Institution | The University of Tokushima |
Principal Investigator |
石田 基広 The University of Tokushima, 大学院・ソシオ・アーツ・アンド・サイエンス研究部, 准教授 (40232318)
|
Keywords | テキストマイニング / 言語学 |
Research Abstract |
21年度の作業では、整備したテキストテータベースから、テキストを順次選んで解析を行った。解析には、やはり昨年度作成した独自のテキスト分析アプリゲーションを利用した。分析の目的は、文単立での単語数、文字数の頻度に確率分布をあてはめることである。この種の適合度の検定では、カイ二乗検定が用いられることが多い。しかし、テキストのような大規模データでは、通常データ数(ここでは単語数や文学数)は数千、数万になるのが普涌である。このたあ、単純なカイ二乗検定を行うと、データ頻度がある確率分布にしたがっているとする帰無仮説は無条件に棄却されてしまう。これに対しては、代替する手法としてCohenのωなどの統計量も提案されている。そこで、これらの統計量による検定を行ってみた。結論としては、ビンに区切った頻度データへカイ二乗統計量にもとづく統計的検定を行った結果は、概してデータに依存しやすい。したがって、これらの結果から、文長について一般的な見解を導き出すことは難しい。 そこで、本年度はこうした結果を踏まえ、新たに一般化線形モデルに、複数のプロビット関数を指定した分析を行う。また、あわせて近年応用の進んでいるベイズ分析を実施する。平行して、文を、文節あるいは句に分けた頻度での分析を行ってみる。 これらの成果と、前年度までの研究成果と比較し、また先行研究などを踏まえたうえで、本年は文長の確率分布について、一般化可能な結論を導く予定である。
|
Research Products
(1 results)