2002 Fiscal Year Annual Research Report
慣用句および動詞句の使用頻度の分析に基づいた用例集の作成
Project/Area Number |
13878049
|
Research Institution | National Institute for Educational Policy Research |
Principal Investigator |
吉岡 亮衛 国立教育政策研究所, 教育研究情報センター, 総括研究官 (40200951)
|
Keywords | 慣用句 / 動詞句 / データベース / テキストデータ / 文データ / インターネット / 用例 / 頻度 |
Research Abstract |
本研究は、(1)インターネットを利用したり、これまでに電子化されている様々な分野からの大量のテキスト情報を収集し、それを文単位に編集・加工した上で文データベースを構築する。(2)構築したデータベースを利用して慣用句および動詞句の使用頻度を分析する。(3)同時にそれらの句を含む用例を抽出し、使用頻度を付けた用例集を作成する。以上により、日本語教育者と学習者の両方に役立っ慣用句と動詞句の頻度情報付きの用例集を作成・提供することが本研究の目的である。 まず用例文データベースの材料としては、文学の分野の材料としてインターネットの青空文庫に収蔵されている2,233作品から抽出した631,674文を、理学や社会学の分野の材料として日本語教育支援システム研究会CASTEL/J CD-ROMに収録されている現代新書とブルーバックス及び白書等から取り出した88,874文を、さらに論文体の材料として科研費特定領域「人文科学とコンピュータ」の報告書から取り出した27,065文をデータベース化した。データベースの項目は、文の出典を示す文情報と、用例文そのものからなる。 次に、動詞については「日本語基本動詞用法辞典」(大修館書店、1989)に収録されている動詞を対象として、見出し漢字1文字について先のデータベース中の文で使用されている頻度を計算し、その中から頻度上位の10語(見、出、分、来、上、思、行、生、言、下)を選んでさらに活用形ごとの頻度を分析した。また、慣用句については、山元啓史・小林典子著「日本語のイディオムと文型」に収録されている索引語を対象として例文を抽出した。
|