• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 実績報告書

日本語のコロケーションを記述するための統計指標のコーパスによる検証

研究課題

研究課題/領域番号 20520429
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

研究分担者 村田 年  慶應義塾大学, 日本語・日本文化教育センター, 教授 (50225372)
馬場 康維  統計数理研究所, 名誉教授 (90000215)
キーワードコロケーション / コーパス / 推移確率 / 統計指標 / 共起 / 慣用句
研究概要

1.係り受けの位置の調査
コロケーションの範囲を調べるために形容詞、形容動詞の係り受けを調査した。形容詞・形容動詞が名詞に係る場合の距離、及び、形容詞・形容動詞へ名詞が係る場合の両方を調査した。
利用したデータは,『現代日本語書き言葉均衡コーパス』の「コアデータ」(書籍,白書,新聞,Yahoo!知恵袋)約80万語である。データ中には形容詞連体形が3403例あったが、そのうち形容詞が直接名詞に係る例が1583例、(前文脈で)名詞が形容詞に係る例が838例であった。形容詞が名詞に係る例のうち、形容詞の直後に名詞が現れる割合は93.9%、直後の5語まででは99.4%であった。逆に名詞が形容詞に係る場合は、直前に現れる割合は6.8%、2語前までで90.8%、5語前までで97.6%であった。同様に形容動詞では、直後の5語までで99.9%、直前の5語までで96.2%が出現していることが分かった。このことから、形容詞・形容動詞が名詞に係る場合は、直後の5語まででほぼ問題ないことが分かった。また、ここでは、連体節中のという限定付きであるが、名詞が形容詞・形容動詞に係る場合もほぼ5語以内で約96%がカバーできることが分かった。
2.文章のジャンルと相関する特徴的表現の抽出
慣用句を指標として文章ジャンルの判別の可能性を探索した。「手」を含む動詞慣用句,形容詞慣用句74項目を指標として用い,『現代日本語書き言葉均衡コーパス』の書籍文章資料を対象として「人文科学系」「社会科学系」「自然科学系」という3つのジャンルの判別を多変量解析法によって行った。その結果,5つの慣用句によって高率でジャンルが判別されることが分かった。

  • 研究成果

    (3件)

すべて 2011

すべて 雑誌論文 (1件) 学会発表 (2件)

  • [雑誌論文] 「手」の慣用句を指標とした文章ジャンルの判別-現代日本語書き言葉均衡コーパスを用いて-2011

    • 著者名/発表者名
      村田年・山崎誠
    • 雑誌名

      日本語と日本語教育

      巻: 39 ページ: 75-88

  • [学会発表] 多義語を構成する意味の使用傾向-品詞と活用形による違い-2011

    • 著者名/発表者名
      山崎誠
    • 学会等名
      言語処理学会第17回年次大会
    • 発表場所
      豊橋技術科学
    • 年月日
      2011-03-09
  • [学会発表] 『手』の慣用句を指標とした文章の所属ジャンル判別の可能性-現代日本語書き言葉均衡コーパスを用いて-2011

    • 著者名/発表者名
      村田年
    • 学会等名
      「テキストにおける語彙の分布と文章構造」研究発表会
    • 発表場所
      国立国語研究所
    • 年月日
      2011-03-06

URL: 

公開日: 2012-07-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi