2008 Fiscal Year Annual Research Report
Project/Area Number |
20520389
|
Research Institution | The University of Tokushima |
Principal Investigator |
石田 基広 The University of Tokushima, 総合科学部, 准教授 (40232318)
|
Keywords | テキストマイニング / 言語学 / 確率論 |
Research Abstract |
本年度は、統計量を求めるためのテキスト・データベースの整備を中心に行い、国内外のサイトからフリーのテキストデータを収集するとともに、独自に入力作業を行い、全体として百を超えるテキスト・データを独自に整備し終えた。 このデータベースがら、文長、すなわち文中の語数や句数を求め、その確率分布を検討するが、この作業を大最のテキストを対象にひとつひとつ行っていたのでは非常に効率が悪い。そこで、本研究遂行のためのソフトウェアを独自に開発した。これはフリーの解析環境として世界的に普及の進んでいるRのアドインパッケージとして開発したため、誰でも自由に利用できるソフトウェアとなった。このソフトウエは下記のURLで一般にも公開している。 作成されたソフトウェアを通して、テキストデータの試行的な解析を進めた。目的は、抽出された統計量の確率分布が、過去に欧米や日本で提案されてきた分布に適合するかを検証することである。 その結果、対数正規分布などの適合度はきわめて悪く、さらに単純なポアソン分布や負の二項分布では、テキスト・データの頻度情報を正しくシミュレーションできないことが明らかになった。 また日本語と欧米語では、言語構造が異なるため、何を単位にとるかという問題があるが、過去においては主に理論的、あるいは演繹的な仮定が立てられ、それに基づいた分析が行われてきた。 これに対して本研究では、逆に、単位ごとの確率分布を比較することで、日本語と欧米語の単位の類似性を明らかにしようとしている。この作業は進行中であるが、欧米語で提唱されている節を単位とした頻度情報は、日本語テキストには不適切なことが明らかになった。
|
Research Products
(3 results)