研究概要 |
まずICAME Corpus CollectionよりVBで始まる文法指標の付加された104,257語の動詞を抽出し、15のジャンル毎にその頻度数を計算した。次に、得られた頻度表から、動詞の原形を取り出し、そのlemmaの表を作成、これに基づいて見出し語による頻度表をlemmaによる頻度表に変換した。このようにして作成されたジャンル数15x lemma数3,923のクロステーブルに林の数量化3類をあてはめ、得られた数量の内、2軸までの数量を使って分析を行った。1軸の寄与率は24.43%,2軸の寄与率は9.04%,累積寄与率は33.47%となった。分析の際には、得られた2軸までの数値を2次元空間に図示し、視覚的に結果を把握できるよう工夫を施すとともに、動詞の分布を図示するのに、各ジャンルに固有のlemmaは、その累積合計を取り、まとめることにより表示するlemmaの数は2642となった。 15のジャンル間の関係に関しては、1軸に沿って、創作散文が正の領域、情報散文が負の領域に附置し、2つのテキストの種類分けが妥当であることが分かった。創作散文では、冒険小説、恋愛小説が高い値を取り、創作散文では科学論文、政府公刊物が負の高い値を示した。この軸は、文体上NarrativeとExpositoryの対比を示すものと考えられる。因みに、この軸で最も原点に近いジャンルは、情報散文の内、新聞の報道記事、大衆科学、伝記、随筆等が挙げられ、これらは中立的だと判断される。2軸では、新聞の報道記事と科学論文が対立関係にあり、科学論文を除く情報散文は全て正の領域に、ユーモア小説を除く創作散文は全て負の領域に附置するが、軸の解釈は明らかでない。 動詞の分布に関しては、ジャンルの附置を反映して、視覚的、具体的な動詞が1軸の正の位置をしめ、逆に、概念的、抽象的な動詞が負の領域に位置し、1軸の解釈Narrative vs Expositoryを確認した。最も頻度の高い動詞sayと頻度15位のtellの分布が全く等しいこと、意味的にはほぼ等しいと思われるが、thinkが創作散文に、considerが情報散文により多く使われること、take,make,find,seem等一般的な動詞は、どのジャンルにも多用されていること等、各動詞の特徴も捉えることができた。
|