2010 Fiscal Year Annual Research Report
日本語のコロケーションを記述するための統計指標のコーパスによる検証
Project/Area Number |
20520429
|
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
村田 年 慶應義塾大学, 日本語・日本文化教育センター, 教授 (50225372)
馬場 康維 統計数理研究所, 名誉教授 (90000215)
|
Keywords | コロケーション / コーパス / 推移確率 / 統計指標 / 共起 / 慣用句 |
Research Abstract |
1.係り受けの位置の調査 コロケーションの範囲を調べるために形容詞、形容動詞の係り受けを調査した。形容詞・形容動詞が名詞に係る場合の距離、及び、形容詞・形容動詞へ名詞が係る場合の両方を調査した。 利用したデータは,『現代日本語書き言葉均衡コーパス』の「コアデータ」(書籍,白書,新聞,Yahoo!知恵袋)約80万語である。データ中には形容詞連体形が3403例あったが、そのうち形容詞が直接名詞に係る例が1583例、(前文脈で)名詞が形容詞に係る例が838例であった。形容詞が名詞に係る例のうち、形容詞の直後に名詞が現れる割合は93.9%、直後の5語まででは99.4%であった。逆に名詞が形容詞に係る場合は、直前に現れる割合は6.8%、2語前までで90.8%、5語前までで97.6%であった。同様に形容動詞では、直後の5語までで99.9%、直前の5語までで96.2%が出現していることが分かった。このことから、形容詞・形容動詞が名詞に係る場合は、直後の5語まででほぼ問題ないことが分かった。また、ここでは、連体節中のという限定付きであるが、名詞が形容詞・形容動詞に係る場合もほぼ5語以内で約96%がカバーできることが分かった。 2.文章のジャンルと相関する特徴的表現の抽出 慣用句を指標として文章ジャンルの判別の可能性を探索した。「手」を含む動詞慣用句,形容詞慣用句74項目を指標として用い,『現代日本語書き言葉均衡コーパス』の書籍文章資料を対象として「人文科学系」「社会科学系」「自然科学系」という3つのジャンルの判別を多変量解析法によって行った。その結果,5つの慣用句によって高率でジャンルが判別されることが分かった。
|
Research Products
(3 results)