研究概要 |
本研究は,ディケンズの作品コーパス,および18〜20世紀の散文作家による対照コーパスの比較分析を行うことで,ディケンズの文体の特質を体系的に記述しようと試みるものである。多変量アプローチによる文体分析モデルを適用することによって,作家固有の文体指標や,散文ジャンル間の相互関係,変数間の相互関係など共時軸における文体変異の様態を記述するとともに,通時軸における文体変化の相を明らかにし,近代英語散文におけるディケンズの英語の位置づけを説得力の高い客観的な形で提示することを目指す。 上記の目標へ到達するための基盤構築として,本年度はまず,電子化したテキストの全単語に品詞標識を付与する作業を行った。この工程は英国ランカスター大学計算機工学科より使用ライセンスを供与された自動品詞付与プログラム,CLAWS4を使用した。CLAWS4では,C7タグセットという137項目に細分化された品詞標識を採用している。この自動標識付与作業では約3%のエラーが生じるため,エラー探し出し修正を効率化するための改訂補助標識(仮称)をテキストに埋め込む実験を行っている。この作業を進めるために,プログラミング言語のPerlやawkを用いたプログラム開発を行った。 テキストへの情報付与にあたっては,必要に応じて,他の研究者とのデータの交換がスムーズに行えるようあらかじめ配慮する必要がある。そのため,マークアップ言語XMLを使用し,電子テキスト交換のための国際規格(Text Encoding Initiative, TEI)に準拠した情報付与方式を採用した。一方で従来使用してきた,LILAC, SILのConc互換フォーマットへの書き換えを可能にするための変換プログラム開発を行った。
|