研究概要 |
新聞記事5年分(約450MB)、短編小説100冊の日本文を形態素解析し、その結果をワークステーション上にデータベース化した。また、それぞれの中から、約20万件、約17万件の「の型名詞句」を抽出し、標本データファイルを作成した。これらのデータを用いた実験的研究の結果は以下の通りである。 「"の型名詞句"における名詞間の意味的係り受け規則の自動生成の研究」では、解析精度約84%の係り受け規則が抽出できることが分かった。「名詞間係り受け解析に必要な単語意味属性の組の最適化の研究」では、名詞句の解析に効果の大きい単語意味属性は、全体の2,700種のうち、ほぼ、82種類に限定されることが分かった。「「の型名詞句」に対する形容詞の係り先解析の研究」では、形容詞と名詞に意味属性の結合の強度を用いれば、形容詞の係り先が85%の精度で決定できることが分かった。 また、文型パターン翻訳関連技術としては、「N-gram統計を応用した日本語文型パターンの自動抽出の研究」により、単語単位の連鎖への変換と固有名詞、数詞等の縮退を行えば、抽出された文型パターンの品質が向上することを確認し、「文型パターン検索のための2段トライ検索方式の研究」において、長文に強い文型パターン検索アルゴリズムを発明した。
|