研究概要 |
本研究計画はDickensの小識を電子コーパス化し,語彙や構文の出現パターンをコンピュータ解析することによって,Dickensの英語の特質を計量的な視点から記述しようと試みるものである。データの応用・分析に当たっては,コーパス言語学的手法を適用することによって,Dickensの英語における口語脈の発達や言語使用域における文体変異の相を説得力の高い客観的な形で提示することを目指している。計画一年目の平成10年度は研究基盤を確立するために,以下の仕事を遂行した. l. 光学式文字読み取り(Optical Character Reader)装置を用いたDickensの作品の入力および校正作業.様々な版のテキストをもとにOCRによる入力を実施した結果,現時点で最高水準のOCR装置を用いても,読み取りの際に約2%の確率で誤認識・欠落等のエラーが生じることが判明した。そのため入力したテキストと原本とを注意深く照合し,入念な校正を行うことが必要となった。 2. 電子テキストの第一次編集・加工作業。単にテキストを電子化しただけのものでは,精密な解析が困難であるため,行末のハイフネーション修正,引用符の統一化,綴り字の統一化などを行い,コンピュータによるテキスト処理の際に直面しうる問題に予め対処した。 3. 語彙品詞鵬識マークアップ(組み込み)法の理論的検討および実践。最近のコーパス言語学の成果,とりわけマークアップに関する研究を比較検討し,文体研究に最適化した形でマークアップを応用する方法を研究している。これまでのところ,一作品当たり約2万語のサンプルテキストを元に,様々なタイプのテキストマークアップの試行とテキスト分析の実験を繰り返し,英語散文のテキスト処理に有用なマークアップ方法の開発を試みている(平成11年度も継続して行う予定)。
|