• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

実世界と可能世界が参照可能であるテキストの日本語モダリティ解析

Research Project

Project/Area Number 18K11427
Research InstitutionThe University of Electro-Communications

Principal Investigator

松吉 俊  電気通信大学, 大学院情報理工学研究科, 助教 (10512163)

Co-Investigator(Kenkyū-buntansha) 森 信介  京都大学, 学術情報メディアセンター, 教授 (90456773)
村脇 有吾  京都大学, 情報学研究科, 助教 (70616606)
亀甲 博貴  京都大学, 学術情報メディアセンター, 助教 (50827524)
Project Period (FY) 2018-04-01 – 2021-03-31
Keywordsモダリティ解析 / コーパス / 日本語モダリティ / 将棋解説文 / シンボルグラウンディング
Outline of Annual Research Achievements

本研究では、実世界と可能世界が参照可能であるテキストの日本語モダリティ解析システムを実装する。具体的には将棋解説文データを研究に利用する。このデータは、将棋局面のデータ(実世界)、現在の局面に対する解説テキストデータ、現在の局面に対する先読みアルゴリズムによる予測局面データ(可能世界)の3つで構成される。本年度は、次の3点を実施した。1.解析システムの改善、2.グラウンディングデータの構築、3.モダリティ解析の手がかり表現の自動抽出。
具体的には、まず、モダリティ情報が付与された将棋解説文コーパスを学習データとして利用して、BERTモデルでマルチタスク学習により日本語モダリティ解析を行うシステムを実装した。このシステムは、モダリティ表現の認識タスク、事象クラスの分類タスク、事実性認識タスクにおいて、それぞれF値尺度で0.689、0.777、0.805を達成した。次に、将棋解説テキストデータ内のイベント表現を将棋局面のデータと正確に人手で対応づけることにより、イベントのグラウンディングデータを構築した。様相論理を応用することを考慮し、イベントのグラウンディング時に5種類の時系列ラベルと4種類の出現確率ラベルも同時に付与した。219個のイベントを対象としてラベルを付与した結果、アノテーター間のカッパ係数は0.7程度であり、高い一致率であることが確かめられた。続いて、現代日本語書き言葉均衡コーパスを対象として、モダリティラベルを自動認識する上で手がかりとなる表現を学習ツールBACTを用いて抽出した。それぞれのモダリティラベルに対して特徴的な可変長n-gram (n=1~5)を10個程度ずつ自動抽出しそのリストを分析した。その結果、典型的なモダリティ表現及びその表記の揺れのみならず、多様な手がかり表現がコーパス内で使用されていることが分かった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

今年度は、イベント表現のシンボルグラウンディングの精度を上げるためのデータ構築、及び、モダリティ解析の手がかり表現辞書の構築を行うことができた。それゆえ、研究は順調に進んでいると言える。
現在の局面に対する先読みアルゴリズムによる予測局面データを生成し、その予測局面においてイベント表現をグラウンディングする研究は、まだごく少数のイベント表現に対してしか実施できていない。しかしながら、前述したグラウンディングデータはこのタスクに活用できると考えられるので、研究全体を見ると、遅れはなく、順調に進んでいると言える。

Strategy for Future Research Activity

本研究課題の最終年度であるので、これまでのすべての成果物を活用し、実世界と可能世界が参照可能であるテキストの日本語モダリティ解析の高精度化を目指す。具体的には、局面データと予測局面データを利用して、イベント表現及びモダリティ表現のシンボルグラウンディング実験を大規模に実施し、モダリティ解析結果のエラー分析を行う。

Causes of Carryover

前年度末に研究計画を変更し、将棋解説テキストのアノテーション済みコーパスの拡充を中止したため、この分の謝金等の経費が今年度も残った。次年度は本研究課題の最終年度であり、構築したシステムの評価を実施する。このうち、イベントのシンボルグラウンディングが正確にできているかどうかの評価には人手による判断が必要であり、技術補佐員を雇用しこのタスクに割り当てる予定である。

  • Research Products

    (4 results)

All 2020 2019 Other

All Presentation (2 results) Book (1 results) Remarks (1 results)

  • [Presentation] 熟練者による解説文内イベントの出現とその根拠のアノテーション2020

    • Author(s)
      亀甲博貴、森信介
    • Organizer
      言語処理学会 第26回年次大会
  • [Presentation] モダリティ表現認識・事象の事実性解析の同時学習2019

    • Author(s)
      友利涼、村脇有吾、松吉俊、亀甲博貴、森信介
    • Organizer
      情報処理学会 第241回自然言語処理研究会
  • [Book] データに基づく日本語のモダリティ研究2020

    • Author(s)
      小磯花絵、中俣尚己、木部暢子、小木曽智信、迫田久美子、佐々木藍子、細井陽子、須賀和香子、松吉俊、浅原正幸、窪薗晴夫、有田節子、益岡隆志、野田尚史、原由理枝
    • Total Pages
      228
    • Publisher
      くろしお出版
    • ISBN
      978-4-87424-828-7
  • [Remarks] アノテーション付き将棋解説文コーパス

    • URL

      http://www.ar.media.kyoto-u.ac.jp/data/game/

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi