日本語文章推敲支援システムにおける字面解析に基づく文章解析法の研究

研究課題

研究課題/領域番号	05780322
研究種目	奨励研究(A)
配分区分	補助金
研究分野	情報システム学(含情報図書館学)
研究機関	九州大学
研究代表者	菅沼明九州大学, 工学部, 講師 (70235852)
研究期間 (年度)	1993
研究課題ステータス	完了 (1993年度)
配分額 *注記	900千円 (直接経費: 900千円) 1993年度: 900千円 (直接経費: 900千円)
キーワード	字面解析 / 日本語テキスト処理 / 文章推敲支援 / 文書処理 / 形態素解析 / 連用中止法
研究概要	1.文章を字面だけで解析し、文章中にある連用中止形の表現を描出する方法を構築した。推敲支援システムに連用中止法を指摘する機能を組み込むために、それを描出する字面解析手法の構築を行なった。その結果、科学技術文章(総文字数:669,842文字)を対象として描出したところ、連用中止形の次の文字が読点またはコンマである表現を82.4%の描出精度(候補として描出するものに対する描出すべきものの割合)で描出できることが判明した。また、指摘洩れは犯さないことを確認した。既存の字面解析手法に形態素解析法を援用し、字面解析による第二種の誤りを減らす手法を構築した。既存の字面解析手法は、第一種の誤り(指摘に洩れがある)は犯さないが、第二種の誤り(余分なものまで指摘してしまう)はある程度許容している。しかし、第二種の誤りもできるだけ少ない方がよい。本研究では、既存の字面解析手法のうち否定表現の描出法を対象とし、形態素解析法を援助した字面解析手法の構築を行なった。その結果、字面だけの解析では取り除くことができないと考えていた第二種の誤りを数多く取り除くことができた。その反面、第一種の誤りを犯すようになった。その原因は、辞書に登録されていない単語の存在と、形態素解析で用いる単語間の接続規則に沿わない表現の存在である。これらに関して、今後対策を講じなければならないと考えている。これまでに構築してきた字面解析手法の描出精度を向上させるため、最小限の二次的な情報を使用して文章を解析する方法について考察した。日本語の患児は表意文字である。この性質を利用して文章中に出現する活用語(動詞、形容詞、形容動詞)の品詞と活用形を推定する方法(活用チェック法)を構築した。さらに、字面解析による接続助詞「が」の描出法に活用チェック法を適用して、接続助詞「が」の描出を行なった。その結果、描出精度が向上することが判明した。