Project/Area Number |
10111239
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas (A)
|
Allocation Type | Single-year Grants |
Research Institution | National Institute for Educational Policy Research |
Principal Investigator |
吉岡 亮衛 国立教育研究所, 教育情報・資料センター, 室長 (40200951)
|
Project Period (FY) |
1998
|
Project Status |
Completed (Fiscal Year 1998)
|
Budget Amount *help |
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 1998: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | テキスト / 現代新書 / ブルーバックス / 白書 / 統計 / 語彙 / 計量 / 分析 |
Research Abstract |
本研究の目的は、講談社現代新書33冊、同ブルーバックス7冊及び、白書3冊(経済白書、国民生活白書、我が国の文教施策)の3種類全43冊のテキストの分析結果を総合的に解析し、テキストの種類を弁別するために有効な指標を見出すことであった。具体的には次のように研究を進めた。 1. テキストの処理 文字毎の分析、文毎の分析は、入力テキストに対して前処理なしで可能である。他方、単語毎の分析のためには、文を単語に分割しかつ単語の品詞を認定する必要がある。本研究ではそのために日本語形態素解析システム「茶筅」"ChaSen"を利用させていただいた。 2. 基本的な統計量の算出 次の分析単位について統計量を算出した。 ・文字単位の統計 ・文単位の統計 ・単語単位の統計 3. 統計分析 基本的な統計量に基づいて、統計分析を行った。以上の結果、これまでのところテキストの種類を弁別できる指標及び分析手法は、見出すことができなかった。したがって今後の課題としては、使用文字や使用単語を篩いにかけてテキストを特徴づけるミクロな指標を発見することがあげられる。
|
Report
(1 results)
Research Products
(1 results)