• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実施状況報告書

高度な統語・意味解析情報を持つコーパスの開発とその応用

研究課題

研究課題/領域番号 16K02654
研究機関東北大学

研究代表者

吉本 啓  東北大学, 高度教養教育・学生支援機構, 教授 (50282017)

研究分担者 森 芳樹  東京大学, 大学院総合文化研究科, 教授 (30306831)
小林 昌博  鳥取大学, 大学教育支援機構, 准教授 (50361150)
研究期間 (年度) 2016-04-01 – 2019-03-31
キーワードコーパス / 統語論 / 意味論
研究実績の概要

科学研究費基盤研究(C)「高度な統語・意味解析情報を持つコーパスの開発とその応用」では、日本語テキストに正確な統辞・意味解析情報を付加した日本語コーパスの構築法を研究し、また実際にそれにもとづいてコーパス開発を行うことを目標としている。平成28年度の研究では、これまでに開発したアノテーション法にもとづいて現実の大量テクストに対し統辞・意味解析情報を付与した。この作業は研究補助員が担当した。
またこの作業を通じて、アノテーション法の改良および研究補助員をまじえたチームによる共同開発を適切に行うために必要な規則の客観化および明確化を検討した。今回は特に、(1) 格役割のアノテーションについて場合分けを行って明確にし、(2) コントロールの種類ごとに、それが行われる条件とともに明確化し、(3) 量化表現構文を単純なスキーマに還元し、さらに (4) 曖昧性を持つ語形について、それらを見分けるためのノウハウを明文化した。
また、多人数のチームによる共同作業を可能にするために規則やノウハウをこれまでにまとめて作成したマニュアルの改良を行った。マニュアルの主要な改善点としては、(1) 格役割のアノテーションは、格名詞句が明示されているか省略されているか、および格が必須か任意かという条件によって変わることから分かりにくいので、それらの間の区別を明確にし、(2) 日本語の関係節 (連体修飾節) には2種類あり、それらの間の区別が必ずしも容易でないので、区別のための条件を分かりやすく提示し、(3) 様々に異なるコントロールが行われる条件をそれぞれ簡素化して平易に説明し、(4) 多様な量化表現を単純な構文スキーマに還元してアノテーションをより簡単にし、また (5) 1語で複数の文法機能を持つ曖昧な語を対象として、簡単に区別するための方法を示した。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

統語・意味情報付きコーパス開発の一部として、約1万文にアノテーションを施し、国語研ウェブサイトより公開を開始した。その際、アノテーションの一貫性と基準の明確化について検討をあわせ行った。特に、セグメンテーションや形容詞修飾の問題について、国立国語研究所のバトラー、ホーン両研究員と意見を交換しながら改良を進めた。また、アノテーション作業の効率化のために、マニュアルの改訂を行った。とりわけ、2種類の関係節や形態論的に曖昧な表現の区別の明確化に関して改善を行った。

今後の研究の推進方策

これまでのコーパスのアノテーションを通じて明らかになった諸問題を整理し、アノテーション方式の一層の洗練のためにフィード・バックさせる。
コーパス開発に当たっては、1つの形式が2つのカテゴリーにまたがって分類しうる例に遭遇することが非常に多く、開発上の最大の障害となっている。しかし、事象間の共通点も多く、解決のための一般的な原則を立てることが可能であると考えられる。これについて検討し、学会発表を行う。
開発したコーパスを利用して日本語学習者の読解支援システムを開発し、習得実験を行う。

  • 研究成果

    (5件)

すべて 2017 2016

すべて 雑誌論文 (2件) (うち謝辞記載あり 1件) 学会発表 (3件) (うち国際学会 2件)

  • [雑誌論文] 中国語名詞句の内部構造について2017

    • 著者名/発表者名
      周振・Alastair Butler・吉本啓
    • 雑誌名

      言語処理学会第23回年次大会発表論文集

      巻: 1 ページ: 46-49

    • 謝辞記載あり
  • [雑誌論文] Keyaki Treebank segmentation and part-of-speech labelling2017

    • 著者名/発表者名
      Stephen Wright Horn, Alastair Butler and 吉本啓
    • 雑誌名

      言語処理学会第23回年次大会発表論文集

      巻: 1 ページ: 414-417

  • [学会発表] Tenses in Japanese Complex Sentences2017

    • 著者名/発表者名
      Kei Yoshimoto
    • 学会等名
      Workshop/Symposium Philosophy of Mental Time V: Time in Language
    • 発表場所
      日本大学
    • 年月日
      2017-01-28
    • 国際学会
  • [学会発表] アノーテーション方式とコーパスの特色2016

    • 著者名/発表者名
      吉本啓
    • 学会等名
      日本言語学会第153回大会ワークショップ「統語・意味解析情報付き日本語コーパスの構築に向けて」
    • 発表場所
      九州大学
    • 年月日
      2016-12-04
  • [学会発表] Treebank Annotaion of FraCaS and JSeM2016

    • 著者名/発表者名
      Alastair Butler, Ai Kubota, Shota Hiyama and Kei Yoshimoto
    • 学会等名
      Logic and Engineering of Natural Language Semantics
    • 発表場所
      国立国語研究所
    • 年月日
      2016-11-13
    • 国際学会

URL: 

公開日: 2018-01-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi