本研究では、談話タグを話し言葉コーパスに対して半自動に付与する方法を開発することを目的とし、本年度は以下の成果を得た。 1.自動タグ付けアルゴリズムの開発 「談話タグワーキンググループ」で標準化がすすめられている発話単位タグ(発話の持つ行為的な側面をとらえたもの)を、形態素解析の結果と、ム-ドに相当する文末表現のパターンとから自動的に推定するアルゴリズムを開発した。このアルゴリズムを用いて、重点領域研究「音声対話」で収集した話し言葉コーパスの中から、スケジュール管理、地理案内、テレフォンショッピング、観光・旅行案内の4種類のタスクの対話を選び、文末表現パターンの学習と評価実験を行った。その結果、発話単位タグに対してclose testで86%、open testでも73%の正解率を得た。 2.タグ検証・修正環境の開発 GUIを用いて、談話タグの付与作業ができるツールをjdat(Japanese Dialogue Annotate Tool)を開発した。jdatは、欧米のグループで用いられている談話タグ付けツールdatを日本語化し、機能の追加、変更を行なったものである。jdatを利用すると、テキストコーパスをタグ付けに適当な論理単位に分割・統合する、タグ付けの対象とならない部分に印を付ける、基本単位に対してタグ付けを行う、という一連の作業がほとんどマウスによる操作だけで可能になる。また、上記の推定アルゴリズムを組み込み、タグ付与作業者に対して推定タグを提示することもできる。
|