2012 Fiscal Year Annual Research Report
高精度モダリティ解析のための言語資源構築に関する研究
Project/Area Number |
23700176
|
Research Institution | University of Yamanashi |
Principal Investigator |
松吉 俊 山梨大学, 医学工学総合研究部, 助教 (10512163)
|
Keywords | 自然言語処理 / モダリティ解析 / 言語学 / 言語資源 / 機能表現 |
Research Abstract |
本研究では、文章の書き手が表明している心的態度や真偽判断、価値判断などの情報(事象のモダリティ)を解析するために必要となる言語資源を構築し、解析システムを実装した。本年度は、次の3点を実施した。1. コーパス構築、2. 解析のための言語資源構築、3. 解析システム実装。 具体的には、まず、これまでに構築したモダリティタグ付きコーパスの変換と一般公開を行った。多くの研究者間で有益なデータを共有できるように、DVD配布版「現代日本語書き言葉均衡コーパス」(以下、BCCWJ)のデータ形式を解析し、ここにモダリティの情報を追加できるツールを開発し、元のデータを自動変換した。そして、モダリティタグの情報を差分データとしてツールとともに一般公開した。次に、事象のモダリティの真偽判断と価値判断に注目し、それらに深く関連する「否定」に関して、上の3点を実施した。まず、「楽天トラベル: レビューデータ」の5,178文と、BCCWJの新聞5,582文に対して、「ない」、「ず」、「不」などの否定要素と、その焦点となる形態素にラベルを付けた。XMLフォーマット仕様を独自に提案し、周辺情報として、項・節の種類、とりたて詞の有無、焦点の意味分類、ラベル判断の根拠、文書中の手がかり語句に人手で適切なアノテーションを行った。次に、構築したコーパスを元に、解析のための言語資源として、否定の焦点を認識するための16の規則集合を構築した。最後に、優先順位に従って、文中の手がかり語句とこれらの規則集合を用いて否定の焦点を解析するシステムを実装した。クローズドテストとオープンテストにおいて、この解析システムは、それぞれ約86%と約80%の正解率を達成した。否定に関するコーパスと解析システムも一般公開する予定である。これらの言語資源をコミュニティで共有できることは、意味処理技術の発展のために意義があると考える。
|
Research Products
(4 results)