2010 Fiscal Year Annual Research Report

文長にみる言語の確率分布

Research Project

Project/Area Number	20520389
Research Institution	The University of Tokushima
Principal Investigator	石田基広徳島大学, 大学院・ソシオ・アーツ・アンド・サイエンス研究部, 准教授 (40232318)
Keywords	計量言語学 / 統計学 / テキストマイニング
Research Abstract	本研究の目的は,日本語文長の確率分布に当てはまるモデルを推定し,これを欧米言語の文長分布と比較することにあった.そのため日本語を中心に多数の小説などをデータベース化する作業を行ってきた.そして,これらのテキストデータを対象に文の長さを計測し,その確率分布を検討してきた.また本研究のため,文の長さを自動的に測定するソフトウェアを開発し,公開した(RCaBoCha). 文長の確率分布については,過去に国内外で多数の研究の蓄積があるが,本研究がこれらの研究とは異なるのは,データの量である.過去においてはそもそもテキストに関する電子データが不足しており,研究者が個別にデータを作成していることが多かった。だがテキスト入力は手間がかかるため,データ量は十分とは言えなかった,そして過去の研究では,確率分布として様々な候補が提案されてきた.しかし,これらの提案の検証には常に適合度の検定(カイ自乗検定)が適用されてきた.ところが適合度の検定はデータ数に敏感である,すなわちデータ量が増加すると,適合度検定は棄却される可能性が高くなる.これは提案分布がいずれも棄却されることを意味する. 本研究最終年度においては,一般化線形モデルを文長に当てはめる試みを行った.すなわち文長の頻度に誤差項としてボアソン分布や負の二項分布を仮定したモデルを構築し,NULLモデルにより実データを当てはめる試みを行った. 結論としては,NULLモデルによる当てはめでは,日本語また欧米テキストとも,一般に適合度はよくなかった.しかしながら,説明項として書き手や年代,ジャンルなどを含めることで,モデルの当てはめが向上する例も見られた.ただし今回の研究では,これを一般化するまでには至らなかったので,今後も説明のために適切な項の発現を目指すこととする.

Research Products
(2 results)

All Presentation (1 results) Remarks (1 results)

[Presentation] テキストマイニングツールRMeCabとRCaBoChaについて2010
- Author(s)
  石田基広
- Organizer
  統計関連学会連合大会
- Place of Presentation
  早稲田大学
- Year and Date
  2010-09-08
[Remarks]
- URL
  https://groups.google.com/group/rcabocha