研究課題/領域番号 |
20650020
|
研究機関 | 東京大学 |
研究代表者 |
影浦 峡 東京大学, 大学院・教育学研究科, 教授 (00211152)
|
研究分担者 |
阿辺川 武 大学共同利用機関法人情報・システム研究機構, 新領域融合研究センター, 研究員 (00431776)
|
キーワード | 翻訳支援 / 誤訳 / ぎこちない翻訳 / 下訳修正訳コーパス / 機械翻訳 |
研究概要 |
本年度は、受動構文に対する機械学習アプローチが単にデータ量の少なさの問題だけでなく、学習に必要な特徴量の理解という観点からも現在のところでは進展困難であるとの前年度結果の分析と診断を踏まえ、問題のクラスをとらえ直すことから作業を始めた。その中で、いわゆる「ぎこちなさ」の前に、ぎこちなさと交錯する「誤訳」の要因にまで一度遡って下訳・修正訳・機械翻訳の結果の相違を検討し、それを踏まえ、(1)ぎこちなさと誤訳の境界的結果を生み出す原因の一つである動詞性要素の分析を進めるとともに、(2)下訳・修正訳と機械翻訳出力のマクロな分析をテキスト特徴量の全体的計量として行った。具体的には、動詞性要素の分析においては、とりわけ英語における-ed形と-ing形の文法機能に対するタグセット(トップレベルでは非述語的用法・準動詞と述語的用法・動詞)を準備し、学習データにタグ付けを行う作業を進めた。一方、マクロな分析については、下訳・修正訳・機械翻訳出力に対して、品詞の分布、機能複合辞および助詞のn-gramの分布、機能辞の中でも特に特徴的な表現の個別の分布傾向を調査し分析した。ここから、前年度に行った「受動」「能動」よりも一歩現象としてはミクロな修正現象の傾向性を把握することができた。また、データの少なさを補うために統合翻訳環境「みんなの翻訳」において下訳と修正訳が蓄積されるメカニズムを組み込み、データの補強を行った。
|