• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

次世代日本語コーパスプロトタイプの構築とその脳認知言語学実験への応用

研究課題

研究課題/領域番号 25370457
研究種目

基盤研究(C)

研究機関東北大学

研究代表者

吉本 啓  東北大学, 高等教育開発推進センター, 教授 (50282017)

研究分担者 横山 悟  東北大学, 加齢医学研究所, 助教 (20451627)
森 芳樹  東京大学, 総合文化研究科, 教授 (30306831)
研究期間 (年度) 2013-04-01 – 2016-03-31
キーワードコーパス言語学 / 統辞解析 / 意味解析 / 脳機能画像法
研究概要

今年度の研究では、第一に、現代日本語の書き言葉の文に対して、十分な統辞論的情報 (句構造) を均質的にタギングするための方法を検討し、実際に統辞情報を付加したプロトタイプ日本語トリーバンクの構築を開始した。さらに、これらの文に付加された統辞情報にもとづいて、文の意味情報 (述語論理式による意味表示) をスコープ制御理論を利用して自動的にタグ付けするための手法を開発した。
本日本語トリーバンクは、原則的に Annotation Manual for the Penn Historical Corpora and the PCEEC (Santorini 2010) の規約に従って作成する。この方式は、極力フラットな統辞構造を採用してノードの数を減らすことと、名詞句、動詞句、節等に必要に応じて機能情報 (主語、目的語、時間副詞句、節の様々な機能等) をタグ付けすることを特色としている。構造的曖昧性が問題になる場合の多くで統辞的埋め込みをフラットなままに未指定とすることが出来るので記述しやすく、また有用な文法情報に富んでいる。
特に今年度は日本語の機能語および構文を網羅的に取り上げ、これらに対する統辞解析の試行錯誤を通じて、コーパス構築のための基本的方法論について検討した。例文として、日本語の文法書である、益岡・田窪『基礎日本語文法―改訂版―』(1992年、くろしお出版) ―を取り上げ、その全例文約1,300文に対して統辞・味情報をタグ付けした。また、国立国語研究所の「現代日本語書き言葉均衡コーパス」の形態素解析情報の信頼性が高いことから、この中の例文に対するアノテーションを開始した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

現実に使用されている様々な例文について検討することを通じて、アノテーションの方針が固まってきている。実際のトリーバンク開発も、研究補助員の協力もあって、順調に行われている。

今後の研究の推進方策

来年度からは、現実に使用された日本語文を対象とし、「現代日本語書き言葉均衡コーパス」の新聞記事データを中心として、合計約1万文のトリーバンクを構築する。この日本語コーパスプロトタイプの構築を通じて、日本語文に統辞解析情報をタグ付けするための客観的基準を確立する。主たる課題は、解析器による自動解析結果に対する、人手での語句分割、品詞付け、および句・節修飾先の訂正、また機能情報とスコープ情報の付加である。成果を『日本語トリーバンク開発作業マニュアル』としてまとめ、一般に公開する。さらに、開発したコーパスを利用して、上記の日本語かきまぜ文および日英語関係節に関する脳内処理計測実験を行う。コーパス開発に際し、必要に応じて、当該構文に関するデータの収集を優先させる。

  • 研究成果

    (5件)

すべて その他

すべて 学会発表 (5件)

  • [学会発表] Parsing Japanese with a PCFG treebank grammar

    • 著者名/発表者名
      方采薇・Alastair Butler・吉本啓
    • 学会等名
      言語処理学会第20回年次大会
    • 発表場所
      北海道大学
  • [学会発表] 中国語コントロール構文の解析

    • 著者名/発表者名
      周振・Alastair Butler・吉本啓
    • 学会等名
      言語処理学会第20回年次大会
    • 発表場所
      北海道大学
  • [学会発表] 連体修飾節における曖昧性とその解決策の提案

    • 著者名/発表者名
      檜山祥太・吉本啓・ Alastair Butler
    • 学会等名
      言語処理学会第20回年次大会
    • 発表場所
      北海道大学
  • [学会発表] 統辞・意味情報を付加した日本語コーパスの構築 欅ツリーバンクプロトタイプについて

    • 著者名/発表者名
      Alastair Butler・方采薇・檜山祥太・周振・小菅智也・吉本啓
    • 学会等名
      言語処理学会第20回年次大会
    • 発表場所
      北海道大学
  • [学会発表] Meaning representations from treebank annotation

    • 著者名/発表者名
      Alastair Butler・吉本啓
    • 学会等名
      言語処理学会第20回年次大会
    • 発表場所
      北海道大学

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi