研究課題
基盤研究において、「対訳辞書の帰納的生成」と「対訳辞書の生成プランニング」に取り組んだ。「対訳辞書の帰納的生成」は、過去の研究によって、同族言語間の語義の類似性に関する意味的制約を用いた最適化問題として定式化されており、それを解くことで従来手法より適合率を向上させることが分かっていた。本研究では、この適合率を維持しつつ、再現率を向上させるために、制約最適化アプローチの一般化フレームワークを提案した。具体的には、制約およびコストの重み付け関数と閾値をパラメータ化することで、言語間の類似度や既存辞書のサイズに応じて制約最適化問題を適応させられるようにしている。一方、「対訳辞書の生成プランニング」では、同言語族の近縁言語全体の対訳辞書の生成コストを最小化するために、マルコフ決定過程に基づく対訳辞書生成プランニング手法を提案した。前者の成果は、ACM Transactions on Asian and Low-Resource Language Information Processingにおいて採録され、後者は国際会議Culture and Computing2017で発表している。実証研究において、基盤研究の成果を組み合わせた対訳辞書生成プラットフォームのプロトタイプを開発し、インドネシア語、マレー語、スンダ語、ジャワ語、ミナンカバウ語の5言語を対象に全言語ペア分の対訳辞書を生成する事前実験を行った。本実証実験により「対訳辞書の生成プランニング」で用いた対訳辞書モデルの妥当性を検証するとともに、提案プラットフォームによるコスト削減について定量的に評価を行った。
2: おおむね順調に進展している
基盤研究では、同族言語の対訳辞書を網羅的に生成するために「対訳辞書の帰納的生成」と「対訳辞書の生成プランニング」に関する研究を実施し、おおむね順調に進展している。まず、対訳辞書の帰納的生成の性能を向上させるために、従来研究によって定式化された意味的制約を用いた最適化問題を一般化したフレームワークを提案した。具体的には、言語間の類似度や既存辞書のサイズに応じて制約およびコストの重み付け関数を適応できるようにパラメータ化するとともに、ピボット単語の多義性を考慮した制約を導入した。この結果、インドネシア語、マレー語、ミナンカバウ語やドイツ語、英語、オランダ語など4種類の同言語族の3言語組に対して、従来手法よりも適合率で0.1程度下げつつも、再現率を0.5程度増加させ、F値を最大0.3程度向上させている。次に、4言語以上の言語から複数の対訳辞書を作成するコストを最小化するために、マルコフ決定過程に基づく対訳辞書生成プランニング手法を考案し、人手による辞書作成と対訳辞書の帰納的生成を組み合わせた最適戦略を導出している。実際に導出された最適戦略を評価するために、インドネシア大学、テレコム大学、イスラミックリアウ大学の協力のもと、インドネシア語、マレー語、スンダ語、ジャワ語、ミナンカバウ語を対象に対訳辞書生成する実証実験を小規模に実施した。これにより、5言語分の10編の対訳辞書を作成するのに、全て人手で作成するよりも、40%程度コストを削減できることを確認している。
基盤研究において、まず、課題1の「対訳辞書の帰納的生成」と課題2の「対訳辞書の生成プランニング」を発展させ、その成果を同言語族の対訳辞書生成に大規模に展開する際の問題点を解決する。例えば、対象となる言語が増えるにつれて、既存の対訳辞書の数が少なく、対訳辞書の帰納的生成を多段に適用する必要が生じる。これにより小規模の事前実験と比べて帰納的生成の精度が低下することが考えられる。そこで、二つの対訳辞書を入力とする帰納的生成手法を発展させて、三つ以上の対訳辞書を入力できるように拡張する。具体的には、ピボット言語が共有されたり連鎖されたグラフから、制約最適化アルゴリズムで対訳関係を抽出し、計算の途中結果を他の対訳辞書の生成に活用することで精度の改善を行う。また、課題2においても、事前実験を踏まえて対訳辞書モデルの改善と遷移確率の修正を行い、コストの見積もり精度の向上を目指す。また、課題3の「対訳辞書の精錬のためのオンラインメカニズム」に関する研究を進め、まずはマルコフ決定過程を用いた対訳辞書生成プランニングを一般化し、動的にプランを生成するサービス合成問題として定式化を行う。実証研究において、引き続き、インドネシア大学、テレコム大学、イスラミックリアウ大学と連携し、地域の民族組織にもアクセスし実験に参加可能な地方語話者の募集を続けることで実証実験の体制を強固にする。さらに、小規模の実証実験を繰り返し実施することで、基盤研究の成果を順次反映して、提案モデルの妥当性や手法の有用性を検証していく予定である。
すべて 2018 2017
すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件、 オープンアクセス 1件) 学会発表 (5件) (うち国際学会 5件、 招待講演 1件) 図書 (4件)
International Journal of Software Engineering and Knowledge Engineering
巻: Vol. 28, No. 1 ページ: 79-96
10.1142/S0218194018500043
ACM Transactions on Asian and Low-Resource Language Information Processing
巻: Vol. 17, No. 2 ページ: 9:1-9:28
10.1145/3138815