2019 Fiscal Year Annual Research Report
Language Services Network for Bilingual Dictionary Creation in Low Resource Languages
Project/Area Number |
17H04706
|
Research Institution | Ritsumeikan University |
Principal Investigator |
村上 陽平 立命館大学, 情報理工学部, 准教授 (00435786)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | サービスコンピューティング / Webサービス / 低資源言語 / 言語資源 |
Outline of Annual Research Achievements |
基盤研究では「対訳辞書の生成プランニングの高度化」に取り組んだ。「対訳辞書の生成プランニング」では、初期状態から言語数分の対訳辞書を作成した目標状態までの最適なプランをマルコフ決定過程を用いて生成している。対象言語が多いと探状態数が膨大となり、プランの計算コストが大きく解けない場合がある。そこで、対訳辞書の帰納的生成の精度が高いことが経験的に分かっている近縁言語クラスタに対象言語を絞り込んでから辞書の生成プランを計算できるように、インタラクティブな近縁言語クラスタリングツールを構築した。具体的には、ユーザの設定した閾値以上の言語間類似度を対象に連結成分を同定しクラスタを検出する。これにより、近縁言語クラスタを優先して対訳辞書の生成プランを計算することが可能になる。一方で、このように段階的に対象言語を拡張していく手法では、初期状態から目標状態までの最適プランを一度に計算できないため、動的な再プランニング手法を考案した。具体的には、作成した対訳辞書の状態に基づいてプランニングの探索空間を随時絞り込むことで、ポリシーを再計算してプランの最適化を行う。実際に提案手法を用いて、インドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語の辞書を作成した後に、バンジャル語とパレンバン語を追加して合計21編の対訳辞書を作成し、人手で作成するよりも約60%のコストを削減した。前者の成果は、Journal of Data Science and Its Applicationsにおいて採録され、後者はACM Transactions on Asian and Low-Resource Language Information Processingに投稿中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
基盤研究では、同族言語の対訳辞書を網羅的に生成するために、「対訳辞書の生成プランニング」に関する研究を昨年度に継続して 実施し、おおむね順調に進展している。 特に、今年度は対象言語が増加した場合に網羅的に辞書を生成するために、近縁言語クラスタの同定と対象言語の漸次増加に伴う再プラニング手法を考案している。具体的には、対象言語となる近縁言語クラスタを辞書作成者がインタラクティブに探索できる可視化ツールを構築している。本ツールでは、辞書作成者が設定した閾値以上の言語間類似度に対して、連結成分を抽出し近縁言語クラスタを同定する。提案手法を119のインドネシア諸語に適用し、類似度50%以上のクラスタを11個同定するとともに、複数クラスタを連結するブリッジ言語としてカロバタック語などを発見している。一方、対象言語の漸次増加に伴う再プランニング手法では、作成した対訳辞書の状態に基づいてプランニングの探索空間を随時絞り込み、一括で計算するよりも計算量を抑えてプランを生成することを可能にしている。実際に提案手法を用いてイスラミックリアウ大学と共同で実証実験を行い、インドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語、バンジャル語、パレンバン語の合計7言語21編の対訳辞書(2000対訳ペア収録)を対象に、既存の成果物に加えて11編の対訳辞書を新規作成している。
|
Strategy for Future Research Activity |
同族言語の対訳辞書を網羅的に生成するために、今年度実施した対象言語の増加に加えて、辞書サイズの増加も必要である。これまで2000対訳ペアを目標としていたが、対訳辞書の有用性を向上させるために、目標サイズを漸次的に増加させる手法に取り組む。具体的には、生成した対訳ペアの増加分ごとに、対訳辞書の帰納的生成手法の適合率推定を事後確率により更新し、推定精度を徐々に実際の分布に近づけて、適応的にプランニングを行っていく。これにより、適合率の推定値の正確さが向上することで、一度に大規模な辞書を作成するよりも正確なコスト予測が可能になり、辞書の生成サイズの効率的な大規模化を可能にする。実証研究では、今年度対象としたインドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語、バンジャル語、パレンバン語に対して、辞書サイズを2000語から4000語に増加し、対訳辞書生成を本格化する。なお、辞書サイズの増加に伴い、作業者の確保が重要となる。そこで、昨年度同様にインドネシア大学、テレコム大学、イスラミックリアウ大学、ランブンマンクラート大学などの協力を得て作業者を集めるとともに、タスクを粒度の細かなマイクロタスクに変更したクラウドソーシングにより、より柔軟なタスク割り当てを実現する。
|