さまざまなテキストを読んでみると、たとえば、講談社現代新書とブルーバックスではそれぞれに共通な何らかの特徴があり、グループを分けている何らかの特徴があるらしいと直観する。そこで、昨年度は新書を特徴づけている情報は何かを統計的手法を用いて抽出することを試みたので、本年度はブルーバックスの特徴を同様の手法を用いて分析を行った 具体的には、次の作業を行った。 (1)講談社現代ブルーバックスの中の単語の切り出し (材料となるデータは、既に開発されたテキストデータベースに納められているので、本研究では、テキストの磁気データ化の必要はない。) (2)単語に対する品詞付け (1)、(2)の作業は、ワークステーション上で日本語形態素解析システム茶筌(ChaSen)1.0を用いて行った。 (3)統計分析(汎用コンピュータ上のパッケージANALYSTを使用した。 ○文について 文長、I文中の単語数 ○単語について 単語長、頻度表(総単語、品詞別)、品詞の使用割合 (4)分析結果のまとめ 分析結果は、グラフ・図表にまとめ、視覚的に特徴をとらえることができるようにした。この結果については、本重点領域研究の報告書に提出した。
|