研究課題/領域番号 |
13610579
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
英語・英米文学
|
研究機関 | 徳島大学 |
研究代表者 |
中村 純作 徳島大学, 総合科学部, 教授 (20035695)
|
研究分担者 |
田畑 智司 大阪大学, 言語文化部, 助教授 (10249873)
|
研究期間 (年度) |
2001 – 2002
|
研究課題ステータス |
完了 (2002年度)
|
配分額 *注記 |
2,300千円 (直接経費: 2,300千円)
2002年度: 500千円 (直接経費: 500千円)
2001年度: 1,800千円 (直接経費: 1,800千円)
|
キーワード | コーパス / 分割表の数量化 / コレスポンデンス分析 / 主成分分析 / BNC World Edition / Dickens / 様態副詞 / スタイル / ジャンル |
研究概要 |
統計手法を用いた文体やジャンルの研究では、語彙や文法範疇のジャンルによる頻度を対象に多変量解析の手法を用いてその特徴を探るのが一般的である。本研究においてはその内、対応分析あるいは分割表の数量化と言われる手法と主成分分析と取り上げ、研究代表者の中村がBNC World Editionを対象に、研究分担者の田畑がDickensの作品コーパスを用いた分析を担当し、両者から得られる結果の妥当性を比較した。 BNC Samplerと呼ばれる現代イギリス英語200万語のコーパスから頻度副詞、程度副詞、様態副詞の14のジャンルにおける頻度を算出し、分割表の数量化を利用した先行研究では、様態副詞が他の副詞類と違った振る舞いを示すことが判明した。そこで、中村は1億語のコーパスであるBNC World Editionの14の領域における全ての"-ly"副詞を抽出し、その中から、頻度の高い典型だと考えられる163の様態副詞を選び出し、主成分分析と分割表の数量化により得られる領域間の関係、様態副詞相互の関係、領域と様態副詞との相互関係を比較した。その結果、主成分分析を使用した場合、領域間の関係は列系列の分析で比較的妥当な結果が得られるものの、行系列ではほとんど軸の解釈が不可能な布置を示した。様態副詞相互の関連については列系列の分析でも、一般的に副詞間の分離の度合いが低いにも拘わらず、中には非常に他とかけ離れた高い値が与えられるものが見られるなど、問題が見られた。一方、分割表の数量化による結果では、領域の分布と副詞の分布に直接対応関係が見られ、各々の分布を説明する要素として物語調対論説調、くだけた調子対格式ばった調子のスタイルに関する要素が抽出され、おおむね妥当な結果が得られた。 田畑はこれまで自分で編纂してきたDickensの作品コーパスを使用し、作品毎の品詞の分布を対応分析、上位30から60語の頻出単語の分布を主成分分析、様態副詞(語尾が"-ly"の)の振る舞いについては対応分析を用いて分析した。品詞の分析では作品群がテキスト範疇(小説とスケッチ)で分類されるほか、年代別にも分類された。また、頻出語による分析では、登場人物の社会言語学的な変数とテキストの形式性が重要な要素として抽出された。本研究の主要なトピックである様態副詞による分析では、年代および小説対スケッチのテキスト範疇が主要な要素として抽出された。最終的に、この様態副詞のテキスト別頻度表と頻出語60語に対し主成分分析、対応分析をあてはめその結果を比較した。その結果、主成分分析の列系列分析では単語の分離の度合いが低いこと、行系列では頻度数の高い項目に過大な評価が与えられること、頻度数を基準化する方が良い結果を得られること、対応分析の方がどちらかというと良い結果がえられることなどが判明した。 結果として、処理対象のデータの種類(変数の種類、質的データか量的データか、生のデータか基準化されたものか、変数の数など)が手法選択の重要な要素となることが分った。 なお、本研究の成果の一部は2002年5月22日から26日にかけてスエーデンのGoteborgで開催されたICAME(International Computer Archive of Modern and Medieval English)2002で発表したほか、今後、英語コーパス学会10周年記念論文集に投稿する予定である。
|