2011 年度実績報告書

膠着語の統計的語形変化処理

研究課題

研究課題/領域番号	22700143
研究機関	名古屋大学
研究代表者	小川泰弘名古屋大学, 大学院・情報科学研究科, 助教 (70332707)
キーワード	膠着語 / ウイグル語 / ウズベク語 / 形態素解析 / 音韻変化
研究概要	日本語やウイグル語,ウズベク語などの膠着語においては,名詞や動詞に接尾辞が接続する際に様々な語形変化を起こす.例えば,日本語においては動詞「書く」に過去を示す接尾辞「た」が接続する場合は「書いた」という語形変化が起きる.従来においては,こうした語形変化を人手で作成したルールに基づいて処理していた.しかし,そうした語形変化ルールは言語ごとにそれぞれ必要になるため,作成の労力が大きい.そこで本研究では,語形変化を一種の翻字として捉えることにより,統計的なアプローチに基づく語形変化ルールの自動生成を試みた. 本年度は,前年度に引き続き,日本語の語形変化処理に関して,その基底形から表層形への変換ルールを統計的機械翻訳用の各モジュールを使用して作成した.その際,学習データの量を比較した.その結果,一般的な統計的機械翻訳では言語モデル用の学習データを増やせば増やすほど精度は向上するが,本研究のような音韻変化処理においては,データ量が比較的少ない段階で精度の上限に達することを明らかにした.また,複数の基底形による比較実験では,基底形の違いが精度に大きな影響を与えることを明らかにした.それに加えて,語形変化のタイプごとに異なる音素記号を用いるような基底形を選択することにより,精度が高くなることも示した. 同様の実験を,ウイグル語やウズベク語に対しても行った.ウイグル語やウズベク語も日本語と同様に名詞や動詞に接尾辞が接続するが,語形変化に関しては日本語よりも複雑である.特にウイグル語においては,母音調和という距離が離れた音素の影響を受ける音韻変化があるため,より多くの学習データが必要になることを明らかにした.なお,ウイグル語とウズベク語のデータは,それぞれの母語話者に作成してもらい,それらのデータに対して複数の基底形を用意して変換ルールの精度を比較した.

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 統計的機械翻訳システムを利用した膠着語の音韻変化処理2012
- 著者名/発表者名
  小川泰弘
- 学会等名
  言語処理学会第18回年次大会
- 発表場所
  広島市立大学(広島県)
- 年月日
  2012-03-16