研究概要 |
本研究の目的は,日本語文長の確率分布に当てはまるモデルを推定し,これを欧米言語の文長分布と比較することにあった.そのため日本語を中心に多数の小説などをデータベース化する作業を行ってきた.そして,これらのテキストデータを対象に文の長さを計測し,その確率分布を検討してきた.また本研究のため,文の長さを自動的に測定するソフトウェアを開発し,公開した(RCaBoCha). 文長の確率分布については,過去に国内外で多数の研究の蓄積があるが,本研究がこれらの研究とは異なるのは,データの量である.過去においてはそもそもテキストに関する電子データが不足しており,研究者が個別にデータを作成していることが多かった。だがテキスト入力は手間がかかるため,データ量は十分とは言えなかった,そして過去の研究では,確率分布として様々な候補が提案されてきた.しかし,これらの提案の検証には常に適合度の検定(カイ自乗検定)が適用されてきた.ところが適合度の検定はデータ数に敏感である,すなわちデータ量が増加すると,適合度検定は棄却される可能性が高くなる.これは提案分布がいずれも棄却されることを意味する. 本研究最終年度においては,一般化線形モデルを文長に当てはめる試みを行った.すなわち文長の頻度に誤差項としてボアソン分布や負の二項分布を仮定したモデルを構築し,NULLモデルにより実データを当てはめる試みを行った. 結論としては,NULLモデルによる当てはめでは,日本語また欧米テキストとも,一般に適合度はよくなかった.しかしながら,説明項として書き手や年代,ジャンルなどを含めることで,モデルの当てはめが向上する例も見られた.ただし今回の研究では,これを一般化するまでには至らなかったので,今後も説明のために適切な項の発現を目指すこととする.
|