• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1996 年度 実績報告書

数量化3類を用いた主要品詞によるLOB Corpusの構造分析

研究課題

研究課題/領域番号 08610481
研究機関徳島大学

研究代表者

中村 純作  徳島大学, 総合科学部, 教授 (20035695)

キーワード林の数量化3類 / LOB Corpus / 情報散文 / 創作散文 / Narrative / Expository / ICAME Corpus Colloction / lomma
研究概要

まずICAME Corpus CollectionよりVBで始まる文法指標の付加された104,257語の動詞を抽出し、15のジャンル毎にその頻度数を計算した。次に、得られた頻度表から、動詞の原形を取り出し、そのlemmaの表を作成、これに基づいて見出し語による頻度表をlemmaによる頻度表に変換した。このようにして作成されたジャンル数15x lemma数3,923のクロステーブルに林の数量化3類をあてはめ、得られた数量の内、2軸までの数量を使って分析を行った。1軸の寄与率は24.43%,2軸の寄与率は9.04%,累積寄与率は33.47%となった。分析の際には、得られた2軸までの数値を2次元空間に図示し、視覚的に結果を把握できるよう工夫を施すとともに、動詞の分布を図示するのに、各ジャンルに固有のlemmaは、その累積合計を取り、まとめることにより表示するlemmaの数は2642となった。
15のジャンル間の関係に関しては、1軸に沿って、創作散文が正の領域、情報散文が負の領域に附置し、2つのテキストの種類分けが妥当であることが分かった。創作散文では、冒険小説、恋愛小説が高い値を取り、創作散文では科学論文、政府公刊物が負の高い値を示した。この軸は、文体上NarrativeとExpositoryの対比を示すものと考えられる。因みに、この軸で最も原点に近いジャンルは、情報散文の内、新聞の報道記事、大衆科学、伝記、随筆等が挙げられ、これらは中立的だと判断される。2軸では、新聞の報道記事と科学論文が対立関係にあり、科学論文を除く情報散文は全て正の領域に、ユーモア小説を除く創作散文は全て負の領域に附置するが、軸の解釈は明らかでない。
動詞の分布に関しては、ジャンルの附置を反映して、視覚的、具体的な動詞が1軸の正の位置をしめ、逆に、概念的、抽象的な動詞が負の領域に位置し、1軸の解釈Narrative vs Expositoryを確認した。最も頻度の高い動詞sayと頻度15位のtellの分布が全く等しいこと、意味的にはほぼ等しいと思われるが、thinkが創作散文に、considerが情報散文により多く使われること、take,make,find,seem等一般的な動詞は、どのジャンルにも多用されていること等、各動詞の特徴も捉えることができた。

  • 研究成果

    (1件)

すべて その他

すべて 文献書誌 (1件)

  • [文献書誌] 中村 純作: "動詞の分布に基ずくLOB Corpusの構造" 英語コーパス研究会第9回例会(於同志社大学). (口頭発表). (97・4・19)

URL: 

公開日: 1999-03-08   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi