研究課題/領域番号 |
10111239
|
研究種目 |
特定領域研究(A)
|
配分区分 | 補助金 |
研究機関 | 国立教育研究所 |
研究代表者 |
吉岡 亮衛 国立教育研究所, 教育情報・資料センター, 室長 (40200951)
|
研究期間 (年度) |
1998
|
研究課題ステータス |
完了 (1998年度)
|
配分額 *注記 |
1,000千円 (直接経費: 1,000千円)
1998年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | テキスト / 現代新書 / ブルーバックス / 白書 / 統計 / 語彙 / 計量 / 分析 |
研究概要 |
本研究の目的は、講談社現代新書33冊、同ブルーバックス7冊及び、白書3冊(経済白書、国民生活白書、我が国の文教施策)の3種類全43冊のテキストの分析結果を総合的に解析し、テキストの種類を弁別するために有効な指標を見出すことであった。具体的には次のように研究を進めた。 1. テキストの処理 文字毎の分析、文毎の分析は、入力テキストに対して前処理なしで可能である。他方、単語毎の分析のためには、文を単語に分割しかつ単語の品詞を認定する必要がある。本研究ではそのために日本語形態素解析システム「茶筅」"ChaSen"を利用させていただいた。 2. 基本的な統計量の算出 次の分析単位について統計量を算出した。 ・文字単位の統計 ・文単位の統計 ・単語単位の統計 3. 統計分析 基本的な統計量に基づいて、統計分析を行った。以上の結果、これまでのところテキストの種類を弁別できる指標及び分析手法は、見出すことができなかった。したがって今後の課題としては、使用文字や使用単語を篩いにかけてテキストを特徴づけるミクロな指標を発見することがあげられる。
|