2000 Fiscal Year Annual Research Report
コンピュータ・コーパスを用いた18〜19世紀の英語散文文体の研究
Project/Area Number |
12710254
|
Research Institution | Osaka University |
Principal Investigator |
田畑 智司 大阪大学, 言語文化部・英語教育講座, 助教授 (10249873)
|
Keywords | コーパス / 電子テキスト / 近代英語散文 / 文体 / 文体統計 / 品詞標識 / 文体変異 / 言語使用域 |
Research Abstract |
本研究では18〜19世紀の英語散文大規模コーパスを構築し,いわゆる「散文の世紀」と呼ばれる時代からVictoria時代にかけての英語散文の文体的特徴を通時的視座および共時的視座の両面から記述しようと試みるものである。特に,コーパスの統計学的解析を通して,英語散文文体における口語化の傾向や言語使用域における文体変異の相を分析し,従来定説と見なされてきた知見を再検討する一方,コンピュータを利用して初めて可能となるような方法論を取り入れることで,Chambers,Gordonらによる先行研究を補完し近代英語散文の文体研究に新しい方向付けを行うことを目指している。計画一年目の平成12年度は研究基盤を確立するために,以下の仕事を遂行した: 1)光学式文字読み取り機装置(OCR)を用いて,Addison,Steeleをはじめとするオーガスタン時代の作家,SmollettやFielding等による小説・随筆を含めた18世紀の散文作品群のコンピュータ入力および校正作業。様々な版の原本をもとにOCRによる入力を実施した結果,現時点で最高水準のOCR装置を用いても,読み取りの際に約2%の確率で誤認識・欠落等のエラーが生じることが判明した。そのため入力したテキストと原本とを注意深く照合し,入念な校正を行うことが必要となった。 2)電子テキストの第一次編集・加工作業。単にテキストを電子化しただけのものでは,精密な解析が困難であるため,行末のハイフネーション修正,引用符の統一化,綴り字の統一化,語彙インデックス・頻度表の作成などを行った.また,この作業を効率的に行うためのスクリプトをコンピュータ言語Javaによって作成し,そのスクリプトによってコーパスの加工を行い,コンピュータによるテキスト処理の際に直面しうる問題に予め対処した。 3)語彙品詞標識マークアップ(組み込み)法の理論的検討および実践。コーパスの一部を用いて,英国ランカスター大学よりライセンスを受けた品詞標識付与プログラムCLAWS4で品詞解析実験を行い,文体研究に最適化したマークアップの応用法を検討した。英語散文のテキスト処理に有用なマークアップ方法の開発を試みている(平成13年度も継続して行う予定)。
|