研究課題/領域番号 |
24300052
|
研究機関 | 名古屋大学 |
研究代表者 |
佐藤 理史 名古屋大学, 工学(系)研究科(研究院), 教授 (30205918)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 自然言語処理 / テキストの難易度 / 基本語彙 / 文の難易度 / 辞書定義文 / テキスト含意認識 / 読解問題 |
研究概要 |
1.基本語彙と文節モデル:基本語彙の選定の基礎調査として、『現代日本語書き言葉均衡コーパス(BCCWJ)』を対象とした語彙調査を実施し、テキストの難易度によって、頻出語彙が予想以上に異なることを明らかにした。これに基づき、単純な出現頻度ではなくテキストの難易度を考慮した基本語彙の選定方法について検討した。日本語表現バンクの編纂に向けては、文節モデルを再検討し、それに基づく節分割プログラムを試作した。 2.文の難しさの調査:BCCWJを用いた基礎調査を行ない、文の難易度と強い相関があると推定される特徴量を洗い出した。さらに、人間がどのような文を難しいと感じるかの調査を行ない、相関の高い特徴量を絞り込んだ。予想通り、文の文字数と文の難易度には非常に強い相関があり、文の長さが同程度の場合は、使用されている語の難しさと相関があることが確認された。 3.辞書定義文の試作:Full-Sentence Definition(FSD)と呼ばれる語の定義法を日本語に対して設計し、100語に対して実際に定義文を試作した。このFSDは、定義文に文法情報やコロケーションをうまく記述できるという特徴を持つ。日本語においても、このような定義が可能であることを示した。 4.テキスト含意認識と大学入試問題への挑戦:日本語処理の到達点を示す応用として、テキスト含意認識、および、大学入試問題の『国語』の問題の自動解法に挑戦した。今年は、表層的な方法でこれらの問題を解き、テキスト含意認識の評価型ワークショップRITE2で好成績をおさめた。さらに、その方法により、センター試験の評論の読解問題の約半分が正しく解けることを実証した。しかしながら、このような方法には限界があり、それを超えるためには、基本語彙へのパラフレーズなど、ある主の制限言語の考え方が必要であることが明らかになった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
『現代日本語書き言葉均衡コーパス』を対象とした語彙調査により、頻出語彙がテキストの難易度によって大きく異なるという予想外の結果が出たため、基本語彙表の作成が遅れている。
|
今後の研究の推進方策 |
基礎資料はほぼ整ったので、基本語彙表の作成に注力する。基本文節パターン集に関しては、当初の予定を少し変更し、文節モデルおよび文節境界認定プログラムを作成し、これを利用して、基本文節パターンを列挙する方向で取り組む。さらに、文節境界認定を利用した節境界認定の実現にも取り組む。Full-Sentence Definitionに基づく辞書定義文は、より多くの語の定義を実際に行ない、定義法のマニュアル化を進める。テキスト含意認識や読解問題への挑戦を継続し、基本語彙の利用など、新たな技術の開発に努める。
|
次年度の研究費の使用計画 |
購入を予定していたコンピュータ(Mac Pro)の出荷が当初の予定(2013年12月)から延期され、2014年5月以降となったため、購入を見送った。この分の約40万円が次年度使用額となった。 Mac Proの出荷が始まった時点で、これを購入するために使用する。
|