2013 年度実績報告書

平易な日本語表現への工学的アプローチ

研究課題

研究課題/領域番号	24300052
研究機関	名古屋大学
研究代表者	佐藤理史名古屋大学, 工学(系)研究科(研究院), 教授 (30205918)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	自然言語処理 / テキストの難易度 / 基本語彙 / 文の難易度 / 辞書定義文 / テキスト含意認識 / 読解問題
研究概要	１．基本語彙と文節モデル：基本語彙の選定の基礎調査として、『現代日本語書き言葉均衡コーパス(BCCWJ)』を対象とした語彙調査を実施し、テキストの難易度によって、頻出語彙が予想以上に異なることを明らかにした。これに基づき、単純な出現頻度ではなくテキストの難易度を考慮した基本語彙の選定方法について検討した。日本語表現バンクの編纂に向けては、文節モデルを再検討し、それに基づく節分割プログラムを試作した。２．文の難しさの調査：BCCWJを用いた基礎調査を行ない、文の難易度と強い相関があると推定される特徴量を洗い出した。さらに、人間がどのような文を難しいと感じるかの調査を行ない、相関の高い特徴量を絞り込んだ。予想通り、文の文字数と文の難易度には非常に強い相関があり、文の長さが同程度の場合は、使用されている語の難しさと相関があることが確認された。３．辞書定義文の試作：Full-Sentence Definition(FSD)と呼ばれる語の定義法を日本語に対して設計し、100語に対して実際に定義文を試作した。このFSDは、定義文に文法情報やコロケーションをうまく記述できるという特徴を持つ。日本語においても、このような定義が可能であることを示した。４．テキスト含意認識と大学入試問題への挑戦：日本語処理の到達点を示す応用として、テキスト含意認識、および、大学入試問題の『国語』の問題の自動解法に挑戦した。今年は、表層的な方法でこれらの問題を解き、テキスト含意認識の評価型ワークショップRITE2で好成績をおさめた。さらに、その方法により、センター試験の評論の読解問題の約半分が正しく解けることを実証した。しかしながら、このような方法には限界があり、それを超えるためには、基本語彙へのパラフレーズなど、ある主の制限言語の考え方が必要であることが明らかになった。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由『現代日本語書き言葉均衡コーパス』を対象とした語彙調査により、頻出語彙がテキストの難易度によって大きく異なるという予想外の結果が出たため、基本語彙表の作成が遅れている。
今後の研究の推進方策	基礎資料はほぼ整ったので、基本語彙表の作成に注力する。基本文節パターン集に関しては、当初の予定を少し変更し、文節モデルおよび文節境界認定プログラムを作成し、これを利用して、基本文節パターンを列挙する方向で取り組む。さらに、文節境界認定を利用した節境界認定の実現にも取り組む。Full-Sentence Definitionに基づく辞書定義文は、より多くの語の定義を実際に行ない、定義法のマニュアル化を進める。テキスト含意認識や読解問題への挑戦を継続し、基本語彙の利用など、新たな技術の開発に努める。
次年度の研究費の使用計画	購入を予定していたコンピュータ(Mac Pro)の出荷が当初の予定(2013年12月)から延期され、2014年5月以降となったため、購入を見送った。この分の約40万円が次年度使用額となった。 Mac Proの出荷が始まった時点で、これを購入するために使用する。

研究成果
(6件)

すべて 2014 2013

すべて学会発表 (6件)

[学会発表] 新しい日本語辞書定義文型の策定に向けて2014
- 著者名/発表者名
  佐藤理史, 夏目和子
- 学会等名
  第5回コーパス日本語学ワークショップ
- 発表場所
  国立国語研究所(立川)
- 年月日
  20140306-20140307
[学会発表] 代ゼミ模試に挑戦2013-『国語』現代文2014
- 著者名/発表者名
  佐藤理史, 加納隼人, 西村翔平
- 学会等名
  情報処理学会自然言語処理研究会(NL-215)
- 発表場所
  国立情報学研究所（東京）
- 年月日
  20140206-20140206
[学会発表] テキストの難易度と語の分布2013
- 著者名/発表者名
  佐藤理史
- 学会等名
  情報処理学会自然言語処理研究会(NL-213)
- 発表場所
  山梨大(甲府)
- 年月日
  20130912-20130913
[学会発表] センター試験『国語』現代文の傍線部問題を解くベースライン法2013
- 著者名/発表者名
  佐藤理史, 加納隼人, 西村翔平, 駒谷和範
- 学会等名
  情報処理学会自然言語処理研究会(NL-212)
- 発表場所
  はこだて未来大学(函館)
- 年月日
  20130718-20130719
[学会発表] Team SKL’s Strategy and Experience in RITE22013
- 著者名/発表者名
  Shohei Hattori and Satoshi Sato
- 学会等名
  The 10th NTCIR Conference
- 発表場所
  国立情報学研究所（東京）
- 年月日
  20130618-20130621
[学会発表] 多段階戦略に基づくテキスト間の意味関係認識：RITE-2タスクへの適用2013
- 著者名/発表者名
  服部昇平, 佐藤理史, 駒谷和範
- 学会等名
  情報処理学会自然言語処理研究会(NL-211)
- 発表場所
  東京
- 年月日
  20130523-20130524

2013 年度 実績報告書

平易な日本語表現への工学的アプローチ

研究代表者

佐藤 理史 名古屋大学, 工学(系)研究科(研究院), 教授 (30205918)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 新しい日本語辞書定義文型の策定に向けて2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 代ゼミ模試に挑戦2013-『国語』現代文2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] テキストの難易度と語の分布2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] センター試験『国語』現代文の傍線部問題を解くベースライン法2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Team SKL’s Strategy and Experience in RITE22013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 多段階戦略に基づくテキスト間の意味関係認識：RITE-2タスクへの適用2013

著者名/発表者名

学会等名

発表場所

年月日

2013 年度実績報告書

佐藤理史名古屋大学, 工学(系)研究科(研究院), 教授 (30205918)