研究概要 |
日本語やウイグル語,ウズベク語などの膠着語においては,名詞や動詞に接尾辞が接続する際に様々な語形変化を起こす.例えば,日本語においては動詞「書く」に過去を示す接尾辞「た」が接続する場合は「書いた」という語形変化が起きる. 従来においては,こうした語形変化を人手で作成したルールに基づいて処理していた.しかしながら,そうした語形変化ルールは言語ごとにそれぞれ必要になるため,作成の労力が大きい.そこで本研究では,語形変化を一種の翻字として捉えることにより,統計的なアプローチに基づく語形変化ルールの自動生成を試みた. 本年度は,まず日本語の語形変化処理に関して,その基底形から表層形への変換ルールを,統計的機械翻訳用の各モジュールを使用して作成した.その際,音韻論的分析に基づくBloch,寺村,清瀬らの基底形や,伝統的な分析に基づく学校文法の基底形など,複数の基底形を用意し,それぞれの変換ルールの精度がどの程度異なるかを比較した.また,基底形の表記に関して,平仮名表記を利用するだけでなく,音韻論的な性質を比較するためにローマ字表記なども用いた.同様の実験を,ウイグル語やウズベク語に対しても行った.ウイグル語やウズベク語も日本語と同様に名詞や動詞に接尾辞が接続するが,その際の変化は日本語よりも種類が多い.そこで,日本語の場合よりも多くのデータを用意した.データの作成にあたっては,それぞれの言語の母語話者に単語を語幹と接尾辞に分割してもらい,それらのデータに対して複数の基底形を用意して変換ルールの精度を比較した.
|