本研究では、日本語テキストを平易に言い換えることを実現する自然言語処理技術を研究するとともに、そのような言い換えが機械翻訳の精度向上に寄付するかどうかのケース・スタディを行なった。主な成果は次の通りである。 1、辞書定義文を利用した言い換え:国語辞典の定義文から、見出し語の言い換えとなる表現を自動的に抽出することを実現した。また、用言が複数の語義を持つ場合に、国語辞典から得られる情報と、コーパスから得られる情報を統合して、用言の言い換え規則を学習する方法を提案した。 2、日本語文の規格化:文の平易化を実現するために不可欠な「平易な日本語」の規格を提案した。この規格は、表記、語彙、文法、量的複雑さの4部門からなる。また、文中に含まれる規格外表現を発見し、それに対する代替表現を提示するプログラムを試作した。 3、語構成に基づく語彙的言い換え:語彙的言い換えは、これまで言い換えペアを登録しておけば、簡単に実現できると考えられてきた。しかし、実際には、単なる置換では実現できない語彙的言い換えは多数存在する。このような言い換えを、基本的な言い換えペアと語構成規則を用いて生成する、新しい語彙的言い換えの枠組みを提案し、実装した。 4、機械翻訳のための言い換え:言い換えが機械翻訳の品質向上に実際に寄与するかどうかの一つのテストケースとして、現在の機械翻訳システムが機能表現「なら」をどのように翻訳するかを調査し、前編集で「なら」を適切に言い換えることが翻訳の品質向上に寄与することを示した。 5、異表記同語認定のための辞書編纂:言い換えの機械化のベースとなる語彙表を作成するため際に、「表記のゆれ」をどのように取り扱うべきかというガイドラインを作成し、これに基づき形態素解析用辞書を編纂した。
|