研究課題/領域番号 |
18K11427
|
研究機関 | 電気通信大学 |
研究代表者 |
松吉 俊 電気通信大学, 大学院情報理工学研究科, 助教 (10512163)
|
研究分担者 |
森 信介 京都大学, 学術情報メディアセンター, 教授 (90456773)
村脇 有吾 京都大学, 情報学研究科, 助教 (70616606)
亀甲 博貴 京都大学, 学術情報メディアセンター, 助教 (50827524)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | モダリティ解析 / コーパス / 日本語モダリティ / 将棋解説文 / シンボルグラウンディング |
研究実績の概要 |
本研究では、実世界と可能世界が参照可能であるテキストの日本語モダリティ解析システムを実装する。具体的には将棋解説文データを研究に利用する。このデータは、将棋局面のデータ(実世界)、現在の局面に対する解説テキストデータ、現在の局面に対する先読みアルゴリズムによる予測局面データ(可能世界)の3つで構成される。本年度は、次の3点を実施した。1.解析システムの改善、2.グラウンディングデータの構築、3.モダリティ解析の手がかり表現の自動抽出。 具体的には、まず、モダリティ情報が付与された将棋解説文コーパスを学習データとして利用して、BERTモデルでマルチタスク学習により日本語モダリティ解析を行うシステムを実装した。このシステムは、モダリティ表現の認識タスク、事象クラスの分類タスク、事実性認識タスクにおいて、それぞれF値尺度で0.689、0.777、0.805を達成した。次に、将棋解説テキストデータ内のイベント表現を将棋局面のデータと正確に人手で対応づけることにより、イベントのグラウンディングデータを構築した。様相論理を応用することを考慮し、イベントのグラウンディング時に5種類の時系列ラベルと4種類の出現確率ラベルも同時に付与した。219個のイベントを対象としてラベルを付与した結果、アノテーター間のカッパ係数は0.7程度であり、高い一致率であることが確かめられた。続いて、現代日本語書き言葉均衡コーパスを対象として、モダリティラベルを自動認識する上で手がかりとなる表現を学習ツールBACTを用いて抽出した。それぞれのモダリティラベルに対して特徴的な可変長n-gram (n=1~5)を10個程度ずつ自動抽出しそのリストを分析した。その結果、典型的なモダリティ表現及びその表記の揺れのみならず、多様な手がかり表現がコーパス内で使用されていることが分かった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度は、イベント表現のシンボルグラウンディングの精度を上げるためのデータ構築、及び、モダリティ解析の手がかり表現辞書の構築を行うことができた。それゆえ、研究は順調に進んでいると言える。 現在の局面に対する先読みアルゴリズムによる予測局面データを生成し、その予測局面においてイベント表現をグラウンディングする研究は、まだごく少数のイベント表現に対してしか実施できていない。しかしながら、前述したグラウンディングデータはこのタスクに活用できると考えられるので、研究全体を見ると、遅れはなく、順調に進んでいると言える。
|
今後の研究の推進方策 |
本研究課題の最終年度であるので、これまでのすべての成果物を活用し、実世界と可能世界が参照可能であるテキストの日本語モダリティ解析の高精度化を目指す。具体的には、局面データと予測局面データを利用して、イベント表現及びモダリティ表現のシンボルグラウンディング実験を大規模に実施し、モダリティ解析結果のエラー分析を行う。
|
次年度使用額が生じた理由 |
前年度末に研究計画を変更し、将棋解説テキストのアノテーション済みコーパスの拡充を中止したため、この分の謝金等の経費が今年度も残った。次年度は本研究課題の最終年度であり、構築したシステムの評価を実施する。このうち、イベントのシンボルグラウンディングが正確にできているかどうかの評価には人手による判断が必要であり、技術補佐員を雇用しこのタスクに割り当てる予定である。
|