Research Abstract |
平成20年度には研究基盤を創成,確立するために,以下(1)〜(3)の仕事を遂行した。 (1)コーパスの編纂 Dickensの長編小説全作品,および18〜20世紀の主要英語小説作品からなるコーパス(Osaka Reference Corpus for HIstorical/Diachronic Stylistics,略称ORCHIDS)を編纂した。ORCHIDSは,18世紀の代表的作家の作品23点,4,163,353語,Dickensの作品24点,4,835,158語,そして他の19世紀の代表的作家の作品31点5,118,346語の総計14,116,857語を収録しており,近代英国小説の文体研究に最適化したコーパスとなっている。 (2)情報付与・解析処理の実験【コロケーション研究への最適化】 後の段階で精密なテキスト処理を可能にするための最適化作業として重要な工程であるため,この過程において情報付与(annotation)の試行と,コーパスからのデータ抽出の実験を繰り返し行った。 (3)コーパスに基づくパイロットスタディ ORCHIDSを用いて近代英国小説におけるgentlemanのコロケーションを俯瞰的に分析した。近代英国小説におけるgentlemanは文体的に重要な語彙項目であり,ORCHIDS全体で8,432回生起しているが,作家や作品によって大きく生起度は異なっている。コロケーション分析の際,たとえば,前後の4語程度のスパンを分析対象に含めると,単純計算でもその8倍のデータ量となるため,目視で全体像を掴むことは到底不可能である。そこで,対応分析を用いてデータを縮約し共起パターンの分析を行った。その結果,Dickens,18世紀サブコーパス,19世紀サブコーパスを特徴付けるコロケーションのパターンを抽出することができた。この成果はDigital Humanities2008,PALA2008(国際文体論学会)などの国際会議において発表した。
|