研究概要 |
T+文法とは、文の深層構造にはT(Theme)S(Subiect)P(Predication)O(Object)四つの項があり,TはS,P,Oと同一のレベルで使われている文法項であるとする考え方である.本年度では大量なコーパスを収集し,主題の特徴を検討した.さらに,いろいろな実験を行い,以下のような成果が得られた. (1) T+文法の開発のため,大規模なコーパスが必要であるが,これについて,コーパスを収集してから大規模な中国語コーパスを用い,その情報付け方法を研究した.特に,品詞の自動推定手法を研究した.中国語の品詞推定では,辞書と統計情報を利用する方法が有効であることが分かった. (2) コーパスを利用する時,まずコーパスの解析をする必要であるが,中国語と日本語について単語の分割,即ち,中国語と日本語のワードセクメンテーション,は問題がある.我々は新しい概念「敏感語」を提案し,中国語のワードセクメンテーション方法を提案した.要点としては,曖昧牲のない非敏感語について一つの単語を処理するが,問題がある際に,敏感語を分解し別の解を探すということである. (3) T+文法の体系を導出し,日中機械翻訳への応用手法を検討した.特に,省略の補完についてT+文法は極めて有効であることが分かった. (4) 中国語複文の場合には、幾つかのケースが存在しているが、機械翻訳の視点から,複文を単文に分割することが重要である. T+文法の発想により、省略文の翻訳が容易的に実現できるが,深層構造から浅層構造への派生方式の導出が当面問題がある.特に,コーパスの自動情報付けは幾つかの問題がまだ残されでいるので,今後,情報付けコーパスを利用し派生方式の導出によりT+文法の機械翻訳への応用手法を開発する予定である.
|