数量化3類を用いた主要品詞によるLOB Corpusの構造分析
Project/Area Number |
08610481
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
英語・英米文学
|
Research Institution | The University of Tokushima |
Principal Investigator |
中村 純作 徳島大学, 総合科学部, 教授 (20035695)
|
Project Period (FY) |
1996
|
Project Status |
Completed (Fiscal Year 1996)
|
Budget Amount *help |
¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 1996: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 林の数量化3類 / LOB Corpus / 情報散文 / 創作散文 / Narrative / Expository / ICAME Corpus Colloction / lomma |
Research Abstract |
まずICAME Corpus CollectionよりVBで始まる文法指標の付加された104,257語の動詞を抽出し、15のジャンル毎にその頻度数を計算した。次に、得られた頻度表から、動詞の原形を取り出し、そのlemmaの表を作成、これに基づいて見出し語による頻度表をlemmaによる頻度表に変換した。このようにして作成されたジャンル数15x lemma数3,923のクロステーブルに林の数量化3類をあてはめ、得られた数量の内、2軸までの数量を使って分析を行った。1軸の寄与率は24.43%,2軸の寄与率は9.04%,累積寄与率は33.47%となった。分析の際には、得られた2軸までの数値を2次元空間に図示し、視覚的に結果を把握できるよう工夫を施すとともに、動詞の分布を図示するのに、各ジャンルに固有のlemmaは、その累積合計を取り、まとめることにより表示するlemmaの数は2642となった。 15のジャンル間の関係に関しては、1軸に沿って、創作散文が正の領域、情報散文が負の領域に附置し、2つのテキストの種類分けが妥当であることが分かった。創作散文では、冒険小説、恋愛小説が高い値を取り、創作散文では科学論文、政府公刊物が負の高い値を示した。この軸は、文体上NarrativeとExpositoryの対比を示すものと考えられる。因みに、この軸で最も原点に近いジャンルは、情報散文の内、新聞の報道記事、大衆科学、伝記、随筆等が挙げられ、これらは中立的だと判断される。2軸では、新聞の報道記事と科学論文が対立関係にあり、科学論文を除く情報散文は全て正の領域に、ユーモア小説を除く創作散文は全て負の領域に附置するが、軸の解釈は明らかでない。 動詞の分布に関しては、ジャンルの附置を反映して、視覚的、具体的な動詞が1軸の正の位置をしめ、逆に、概念的、抽象的な動詞が負の領域に位置し、1軸の解釈Narrative vs Expositoryを確認した。最も頻度の高い動詞sayと頻度15位のtellの分布が全く等しいこと、意味的にはほぼ等しいと思われるが、thinkが創作散文に、considerが情報散文により多く使われること、take,make,find,seem等一般的な動詞は、どのジャンルにも多用されていること等、各動詞の特徴も捉えることができた。
|
Report
(1 results)
Research Products
(1 results)