研究実績の概要 |
本研究では、現代日本語における否定焦点の統計的分布を明らかにするとともに、否定の焦点を自動的に特定する解析システムを実装する。本年度は、次の3点を実施した。(i)コーパス整備、(ii)解析システム実装、(iii)システムの評価。 具体的には、現代日本語書き言葉均衡コーパスの新聞データに付けたラベルを丁寧に見直した。加えて、昨年度提案した、コミュニティで共有するためのデータフォーマット仕様のファイルを、コーパスから自動生成するプログラムを構築した。分析した否定焦点の統計的分布に基づいて、ルールベースにより否定の焦点を解析するシステムを実装した。このシステムは、大分類で14個のルールを持っている。否定辞を含む1文が入力されると、システムは、その文に存在する手がかり語句を検出し、それらの優先度に応じてルールを適用し、否定の焦点を解析する。手がかり語句としては、主に、副詞、とりたて詞、構文パターンを利用した。構築したコーパスを用いて評価した結果、提案システムは、レビューデータにおいて78%、新聞データにおいて80%の正解率を達成した。単純な規則に基づくベースラインシステムの正解率は、それぞれ68%と73%であり、その性能を10%ほど上回る成果を達成することができた。 研究期間全体を通じた主な研究成果は、以下の3つである。(1) 約1万文のテキストデータを対象として、2,147個の否定辞とその焦点にラベルを付けたコーパスを構築した。(2) このコーパスを分析し、否定辞とその焦点に関して統計的分布を明らかにした。(3) 約79%の性能の否定焦点解析システムを実装した。構築したコーパス、および、そこから得られた知見は、コーパス言語学分野において重要であり、その発展に寄与すると思われる。実装した解析システムは、事実性解析や情報検索・情報抽出の発展を促す、意義のある成果であると考える。
|