• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

n個の名詞が連接した日本語複合名詞の解析

研究課題

研究課題/領域番号 09780348
研究種目

奨励研究(A)

配分区分補助金
研究分野 知能情報学
研究機関九州大学

研究代表者

市丸 夏樹  九州大学, 大学院システム情報科学研究科, 助手 (80274497)

研究期間 (年度) 1997 – 1998
研究課題ステータス 完了 (1998年度)
配分額 *注記
900千円 (直接経費: 900千円)
1998年度: 200千円 (直接経費: 200千円)
1997年度: 700千円 (直接経費: 700千円)
キーワードシソーラス / 用例 / 確率文脈自由文法 / 複合語 / 派生語 / コーパス / 仮名漢字変換 / 形態素解析 / シソ-ラス / 確率文法
研究概要

1. 派生名詞・複合名詞の文法を構築
仮名漢字変換・形態素解析の高精度化のために,シソーラスと用例による手法に基づいて派生名詞・複合名詞を解析する手法を提案し,その文法を確率文脈自由文法(PCFG)で構築した.また,RWCテキストデータベースより派生名詞と複合名詞の用例を抽出し,EDR概念体系を組み込んだ大規模な文法を試作した.
2. 学習用例数の増加による認識率変動の調査
シソーラスと用例に基づく本手法において学習用例が少ない時には,一般に再現率が低く,かといってルールを一般化すると適合率が下がり,再現率と適合率のいずれか一方が従来手法(品詞や粗い意味分類レベルで連接可能性を判定するもの)より劣る場合がある.そこでどの程度用例を学習すれば従来手法を越えられるかを調査した.比較実験の内容は,新聞記事に対する1文単位の形態素解析において生じる全ての派生語候補に対する仮名漢字変換であり,様々な学習条件下で適合率と再現率の計測を行った.その結果,我々の手法が従来手法よりも優れた適合率・再現率を示すための条件は,一般化段数(ルールの抽象化)を1段程度に押さえ,少なくとも10万語以上の用例を学習することだと判明した.こうすれば,登録語と意味的にもっともらしい未登録語のみをうまく受理できるのである.また,充分に多くの用例(100万語以上)を学習した後では,むやみにルールを一般化するよりも,1段だけ一般化したルールを用いた場合に,適合率と再現率の両方で最も良い値が得られた.一方,複合名詞に関しては未だ単純な従来手法を越えるまでに至っていない.これは複合名詞の用例の量が十分でないためであると考えられる.今後は,さらなる用例の収集を計り,解析の高速化手法の研究が必要である.

報告書

(2件)
  • 1998 実績報告書
  • 1997 実績報告書
  • 研究成果

    (1件)

すべて その他

すべて 文献書誌 (1件)

  • [文献書誌] 市丸夏樹: "PCFGによる派生語処理の比較と検討" 九州大学システム情報科学研究科 研究科報告. 4・1(印刷中). (1999)

    • 関連する報告書
      1998 実績報告書

URL: 

公開日: 1997-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi