• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

高度な統語・意味解析情報を持つコーパスの開発とその応用

Research Project

Project/Area Number 16K02654
Research InstitutionTohoku University

Principal Investigator

吉本 啓  東北大学, 高度教養教育・学生支援機構, 教授 (50282017)

Co-Investigator(Kenkyū-buntansha) 森 芳樹  東京大学, 大学院総合文化研究科, 教授 (30306831)
小林 昌博  鳥取大学, 大学教育支援機構, 准教授 (50361150)
Project Period (FY) 2016-04-01 – 2019-03-31
Keywordsコーパス / 統語論 / 意味論
Outline of Annual Research Achievements

科学研究費基盤研究(C)「高度な統語・意味解析情報を持つコーパスの開発とその応用」では、日本語テキストに正確な統辞・意味解析情報を付加した日本語コーパスの構築法を研究し、また実際にそれにもとづいてコーパス開発を行うことを目標としている。平成28年度の研究では、これまでに開発したアノテーション法にもとづいて現実の大量テクストに対し統辞・意味解析情報を付与した。この作業は研究補助員が担当した。
またこの作業を通じて、アノテーション法の改良および研究補助員をまじえたチームによる共同開発を適切に行うために必要な規則の客観化および明確化を検討した。今回は特に、(1) 格役割のアノテーションについて場合分けを行って明確にし、(2) コントロールの種類ごとに、それが行われる条件とともに明確化し、(3) 量化表現構文を単純なスキーマに還元し、さらに (4) 曖昧性を持つ語形について、それらを見分けるためのノウハウを明文化した。
また、多人数のチームによる共同作業を可能にするために規則やノウハウをこれまでにまとめて作成したマニュアルの改良を行った。マニュアルの主要な改善点としては、(1) 格役割のアノテーションは、格名詞句が明示されているか省略されているか、および格が必須か任意かという条件によって変わることから分かりにくいので、それらの間の区別を明確にし、(2) 日本語の関係節 (連体修飾節) には2種類あり、それらの間の区別が必ずしも容易でないので、区別のための条件を分かりやすく提示し、(3) 様々に異なるコントロールが行われる条件をそれぞれ簡素化して平易に説明し、(4) 多様な量化表現を単純な構文スキーマに還元してアノテーションをより簡単にし、また (5) 1語で複数の文法機能を持つ曖昧な語を対象として、簡単に区別するための方法を示した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

統語・意味情報付きコーパス開発の一部として、約1万文にアノテーションを施し、国語研ウェブサイトより公開を開始した。その際、アノテーションの一貫性と基準の明確化について検討をあわせ行った。特に、セグメンテーションや形容詞修飾の問題について、国立国語研究所のバトラー、ホーン両研究員と意見を交換しながら改良を進めた。また、アノテーション作業の効率化のために、マニュアルの改訂を行った。とりわけ、2種類の関係節や形態論的に曖昧な表現の区別の明確化に関して改善を行った。

Strategy for Future Research Activity

これまでのコーパスのアノテーションを通じて明らかになった諸問題を整理し、アノテーション方式の一層の洗練のためにフィード・バックさせる。
コーパス開発に当たっては、1つの形式が2つのカテゴリーにまたがって分類しうる例に遭遇することが非常に多く、開発上の最大の障害となっている。しかし、事象間の共通点も多く、解決のための一般的な原則を立てることが可能であると考えられる。これについて検討し、学会発表を行う。
開発したコーパスを利用して日本語学習者の読解支援システムを開発し、習得実験を行う。

  • Research Products

    (5 results)

All 2017 2016

All Journal Article (2 results) (of which Acknowledgement Compliant: 1 results) Presentation (3 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] 中国語名詞句の内部構造について2017

    • Author(s)
      周振・Alastair Butler・吉本啓
    • Journal Title

      言語処理学会第23回年次大会発表論文集

      Volume: 1 Pages: 46-49

    • Acknowledgement Compliant
  • [Journal Article] Keyaki Treebank segmentation and part-of-speech labelling2017

    • Author(s)
      Stephen Wright Horn, Alastair Butler and 吉本啓
    • Journal Title

      言語処理学会第23回年次大会発表論文集

      Volume: 1 Pages: 414-417

  • [Presentation] Tenses in Japanese Complex Sentences2017

    • Author(s)
      Kei Yoshimoto
    • Organizer
      Workshop/Symposium Philosophy of Mental Time V: Time in Language
    • Place of Presentation
      日本大学
    • Year and Date
      2017-01-28
    • Int'l Joint Research
  • [Presentation] アノーテーション方式とコーパスの特色2016

    • Author(s)
      吉本啓
    • Organizer
      日本言語学会第153回大会ワークショップ「統語・意味解析情報付き日本語コーパスの構築に向けて」
    • Place of Presentation
      九州大学
    • Year and Date
      2016-12-04
  • [Presentation] Treebank Annotaion of FraCaS and JSeM2016

    • Author(s)
      Alastair Butler, Ai Kubota, Shota Hiyama and Kei Yoshimoto
    • Organizer
      Logic and Engineering of Natural Language Semantics
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2016-11-13
    • Int'l Joint Research

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi