研究概要 |
本研究は、インターネットを利用して、様々な分野からの大量のテキスト情報を収集し、それを文単位に編集・加工した上でデータベースを構築する。構築したデータベースを利用して慣用句および動詞句の使用頻度を分析する。同時にそれらの句を含む用例を抽出し、使用頻度を付けた用例集を作成する。以上により、日本語教育者と学習者の両方に役立つ慣用句を動詞句の用例集を作成・提供することが本研究の目的である。 本年度は、データ収集を中心的に行ってきた。具体的には、文学的な文章のソースとして、青空文庫に収蔵されている2,233作品を取り出した。また、評論や科学読み物の文章のソースとして、日本語教育支援システム研究会CASTEL/J CD-ROMに収録されている現代新書とブルーバックス及び白書を取り出した。また、フォーマルな文章のソースとして日経Windows2000/NTのCD-ROM縮刷版1999に収録されている文章を取り出した。これらのテキストファイルからテキストデータを取り出して、文単位に編集・加工して、データベース化を行うところまでを行っている。
|