研究課題
基盤研究において、昨年度に続いて「対訳辞書の帰納的生成」と「対訳辞書の生成プランニング」に取り組んだ。「対訳辞書の帰納的生成」では、対訳辞書の生成対象となる二言語(以下、対象言語)をピボット言語でつなぐことで、対象言語間の対訳辞書を高精度で生成する。一般に、こうした手法は、対象言語が類似している場合に効果的に働く。そこで、言語間類似度のデータベースを用いて、近縁言語のクラスタを同定する手法を提案している。具体的には、階層的クラスタリングにより、類似度が閾値を超える言語のみからなるクラスタを抽出している。提案手法をインドネシア諸語に実際に適用し、近縁言語のクラスタを抽出できることを確認している。これにより、近縁言語の言語ペアに優先的に対訳辞書の帰納的生成手法を適用することで、高精度で対訳辞書を生成することができる。一方、「対訳辞書の生成プランニング」では、マルコフ決定過程に基づく対訳辞書生成プランニング手法で生成されたプランに従って本格的に実証実験を行えるように、オンラインの協調作業プラットフォームを開発した。これにより、対訳辞書の対象言語のバイリンガルでなくても、ピボット言語を介して対訳ペアの作成や評価を行うことができる。前者の成果は、International Journal of Electrical and Computer Engineeringにおいて採録され、後者は国際会議11th edition of the Language Resources and Evaluation Conference (LREC 2018)で発表している。
2: おおむね順調に進展している
基盤研究では、同族言語の対訳辞書を網羅的に生成するために、「対訳辞書の帰納的生成」と「対訳辞書の生成プランニング」に関する研究を昨年度に継続して実施し、どちらともおおむね順調に進展している。まず、対訳辞書の帰納的生成を効果的に行うために、言語間類似度のデータベースから近縁言語のクラスタを抽出する手法を考案している。具体的には、階層的クラスタリングにより、類似度が閾値を超える言語のみからなる緊密なクラスタを抽出し、この緊密クラスタを基準にk-平均法により全体を分割していくことで、できる限り安定度の高いクラスタの集合を獲得する。提案手法を32のインドネシア諸語に実際に適用し、マレー系の言語クラスタやバタック系の言語クラスタなど5つの近縁言語クラスタを抽出できることを確認している。次に、低資源言語の対訳辞書を網羅的に作成するために必要な人手による対訳辞書作成を効率的に行うために、オンラインの協調作業プラットフォームを開発した。このプラットフォームにより、対訳辞書の対象言語のバイリンガル作業者を確保することが難しい場合に、ピボット言語を介して対訳ペアの作成や評価の協調作業を行うことができる。さらに、作業の進捗を管理することができ、作業の再割り当てもプラットフォーム上で行うことで実証実験を円滑に実施可能な環境を構築した。
基盤研究において、課題1の「対訳辞書の帰納的生成」と課題2の「対訳辞書の生成プランニング」の成果を同言語族の対訳辞書生成に大規模に展開する際の問題点に取り組む。具体的には、課題3の「対訳辞書の精錬のためのオンラインメカニズム」に関する研究を進め、対訳辞書の生成プロセスの途中結果を用いた動的プランニング手法を考案する。動的プランニング手法は、作成した対訳辞書の対訳ペア数を用いてプランニングの探索空間を随時更新することで、ポリシーを再計算してプランの最適化を逐次的に行う。さらに、対訳辞書の帰納的生成手法の精度分布も事後確率によって更新することで、対訳辞書生成プロセスの総作成コストの推定精度を向上させる。実証研究では、近縁言語として同定されたバンジャル語も加えて、インドネシア語、マレー語、ミナンカバウ語、ジャワ語、スンダ語の6言語を対象に実証実験を行う。そのために、従来のインドネシア大学、テレコム大学、イスラミックリアウ大学に加えて、ランブンマンクラート大学とも連携し、実証実験の体制を構築する。このように実証実験の対象言語を増やすことで、プランニングの探索空間を拡大させて、動的手法のスケーラビリティの検証を行う。
すべて 2019 2018 その他
すべて 国際共同研究 (1件) 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (4件) (うち国際学会 3件、 招待講演 1件) 備考 (1件)
International Journal of Electrical and Computer Engineering
巻: Vol. 9, No. 1 ページ: pp. 531-538
10.11591/ijece.v9i1
IEEE Computer
巻: Vol. 51, Issue 6 ページ: pp. 72-81
http://doi.ieeecomputersociety.org/10.1109/MC.2018.2701643
http://langsphere.org/id/