1997 Fiscal Year Annual Research Report
大規模コーパスからの日本語表現の構造知識を自動獲得するための研究開発
Project/Area Number |
09558035
|
Research Institution | Tottori University |
Principal Investigator |
池原 悟 鳥取大学, 工学部, 教授 (70283968)
|
Co-Investigator(Kenkyū-buntansha) |
白井 論 NTTコミュニケーション科学研究所, 主幹研究員
|
Keywords | 意味解析 / 係り受け解析 / 名詞句 / 文型パターン / N-gra.m / 単語意味属性 |
Research Abstract |
新聞記事5年分(約450MB)、短編小説100冊の日本文を形態素解析し、その結果をワークステーション上にデータベース化した。また、それぞれの中から、約20万件、約17万件の「の型名詞句」を抽出し、標本データファイルを作成した。これらのデータを用いた実験的研究の結果は以下の通りである。 「"の型名詞句"における名詞間の意味的係り受け規則の自動生成の研究」では、解析精度約84%の係り受け規則が抽出できることが分かった。「名詞間係り受け解析に必要な単語意味属性の組の最適化の研究」では、名詞句の解析に効果の大きい単語意味属性は、全体の2,700種のうち、ほぼ、82種類に限定されることが分かった。「「の型名詞句」に対する形容詞の係り先解析の研究」では、形容詞と名詞に意味属性の結合の強度を用いれば、形容詞の係り先が85%の精度で決定できることが分かった。 また、文型パターン翻訳関連技術としては、「N-gram統計を応用した日本語文型パターンの自動抽出の研究」により、単語単位の連鎖への変換と固有名詞、数詞等の縮退を行えば、抽出された文型パターンの品質が向上することを確認し、「文型パターン検索のための2段トライ検索方式の研究」において、長文に強い文型パターン検索アルゴリズムを発明した。
|