研究分担者 |
山口 昌也 独立行政法人国立国語研究所, 研究開発部門, 研究員 (30302920)
小椋 秀樹 独立行政法人国立国語研究所, 研究開発部門, 研究員 (00321547)
笹原 宏之 独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (80269505)
小木曽 智信 明海大学, 外国語学部, 専任講師 (20337489)
湯浅 茂雄 実践女子大学, 文学部, 教授
|
研究概要 |
本研究は,現代日本語が確立する変化過程をとらえることのできる雑誌コーパスを構築し,これを用いて,確立期現代語の高精度な記述を実践し,コーパスによる日本語研究を新しい段階に進めることを企図するものである。平成14年度に作成に着手した「20世紀初期総合雑誌コーパス」について,平成15年度は,電子テキスト本文の校正を重点的に進め,形態素解析に本格的に着手し,検索システムの開発も段階を進めた。また,このコーパスを用いた記述研究の方法を探索するための具体的な研究の実践も開始した。 コーパス化した対象資料は,総合雑誌『太陽』1895年・1909年・1925年,女性総合雑誌『女学雑誌』1894・1895年,『女学世界』1909年,『婦人倶楽部』1925年で,当時の日本語における言語層の広がりを,ジャンル,文体,書き手の属性,読み手の属性等の点で,幅広く反映するものであり,また,現代語が確立する変化の過程をたどることができるものである。電子テキストの作成は,文献資料の言語構造を把握し,文献資料から抽出される言語情報を,XMLによる文書の構造化と情報のマークアップという形で実現させ,記事ジャンル,著者属性,文体,引用文,校訂注記,外字等の情報を,タグによってテキスト中に埋め込んだ。形態素解析は,言語研究に有用な短単位によって均質な単位切りを行い,見出し語・品詞・語種等の情報付与に着手した。また,言語研究に活用する立場から,検索システムを使い勝手のよい高機能なものにする研究も段階的に進展させた。
|