本研究計画はDickensの小説全作品を電子コーパス化し、語彙や構文の出現パターンをコンピュータ解析することによって、Dickensの英語を計量的な視点から記述しようという試みである。計画二年目の平成11年度は、前半では、平成10年度に引き続き言語データの電子化法の理論的検討と実験を相補的な形でとりおこなうことによって研究基盤の確立をはかり、後半では、出来上がった電子コーパスを基に文体統計論的分析を行うことでDickensの英語におけるおける語彙の生起パターンと文体変異の相互関係を考察した。研究実績の主な点は次の通り: 1.語彙品詞標識マークアップ(組み込み)法の理論的検討および実践。最近のコーパス言語学の成果、とりわけマークアップに関する研究を比較検討し、文体研究に最適化した形でマークアップを応用する方法を研究した。電子テキストを元に、様々なタイプのテキストマークアップの試行とテキスト分析の実験を繰り返し、英語散文のテキスト処理に有用なマークアップ方法の開発を試みた。その結果、品詞標識に関してはPenn-Treebank方式に準じた形式を採用し、自動品詞標識付与プログラム(UNIXサーバ上で稼動)に学習させることで、自動認識率を96%以上にまで高めることが可能になった。本研究計画で作成したコーパスはいずれもPenn-Treebank準拠の品詞標識が埋め込まれている。 2.コーパスデータの文体統計学的分析。編纂したコーパスから得られたデータを基に、さまざまな語彙項目や構文間の相互関係、テキスト間の相互関係、そして語彙や構文とテキストとの相互関係を分析した。その結果、Dickensの小説の言語における語彙の出現パターンは、i)経年的に変化しているということ、ii)言語使用域ごとに一貫したパターンが見受けられるということ、iii)作品の冒頭部における変異が最も大きく、作品の巻・章が進行するにつれて、変異が小さくなると言う傾向が見られた。これらのうち最も興味深い現象としてi)の経年変化を挙げることができる。Dickensの文体は前期の作品において典型的に認められるより文語的、形式的、複雑な構造を持ったものから、後期の作品に特徴的な相対的に口語的、並列的、文脈依存な傾向を深めた文体へと移り変わっていることを本研究は明らかにした。
|