研究概要 |
日本語やウイグル語,ウズベク語などの膠着語においては,名詞や動詞に接尾辞が接続する際に様々な語形変化を起こす.例えば,日本語においては動詞「書く」に過去を示す接尾辞「た」が接続する場合は「書いた」という語形変化が起きる.従来においては,こうした語形変化を人手で作成したルールに基づいて処理していた.しかし,そうした語形変化ルールは言語ごとにそれぞれ必要になるため,作成の労力が大きい.そこで本研究では,語形変化を一種の翻字として捉えることにより,統計的なアプローチに基づく語形変化ルールの自動生成を試みた. 本年度は,前年度に引き続き,日本語の語形変化処理に関して,その基底形から表層形への変換ルールを統計的機械翻訳用の各モジュールを使用して作成した.その際,学習データの量を比較した.その結果,一般的な統計的機械翻訳では言語モデル用の学習データを増やせば増やすほど精度は向上するが,本研究のような音韻変化処理においては,データ量が比較的少ない段階で精度の上限に達することを明らかにした.また,複数の基底形による比較実験では,基底形の違いが精度に大きな影響を与えることを明らかにした.それに加えて,語形変化のタイプごとに異なる音素記号を用いるような基底形を選択することにより,精度が高くなることも示した. 同様の実験を,ウイグル語やウズベク語に対しても行った.ウイグル語やウズベク語も日本語と同様に名詞や動詞に接尾辞が接続するが,語形変化に関しては日本語よりも複雑である.特にウイグル語においては,母音調和という距離が離れた音素の影響を受ける音韻変化があるため,より多くの学習データが必要になることを明らかにした.なお,ウイグル語とウズベク語のデータは,それぞれの母語話者に作成してもらい,それらのデータに対して複数の基底形を用意して変換ルールの精度を比較した.
|