2019 Fiscal Year Annual Research Report

Language Services Network for Bilingual Dictionary Creation in Low Resource Languages

Research Project

Project/Area Number	17H04706
Research Institution	Ritsumeikan University
Principal Investigator	村上陽平立命館大学, 情報理工学部, 准教授 (00435786)
Project Period (FY)	2017-04-01 – 2021-03-31
Keywords	サービスコンピューティング / Webサービス / 低資源言語 / 言語資源
Outline of Annual Research Achievements	基盤研究では「対訳辞書の生成プランニングの高度化」に取り組んだ。「対訳辞書の生成プランニング」では、初期状態から言語数分の対訳辞書を作成した目標状態までの最適なプランをマルコフ決定過程を用いて生成している。対象言語が多いと探状態数が膨大となり、プランの計算コストが大きく解けない場合がある。そこで、対訳辞書の帰納的生成の精度が高いことが経験的に分かっている近縁言語クラスタに対象言語を絞り込んでから辞書の生成プランを計算できるように、インタラクティブな近縁言語クラスタリングツールを構築した。具体的には、ユーザの設定した閾値以上の言語間類似度を対象に連結成分を同定しクラスタを検出する。これにより、近縁言語クラスタを優先して対訳辞書の生成プランを計算することが可能になる。一方で、このように段階的に対象言語を拡張していく手法では、初期状態から目標状態までの最適プランを一度に計算できないため、動的な再プランニング手法を考案した。具体的には、作成した対訳辞書の状態に基づいてプランニングの探索空間を随時絞り込むことで、ポリシーを再計算してプランの最適化を行う。実際に提案手法を用いて、インドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語の辞書を作成した後に、バンジャル語とパレンバン語を追加して合計21編の対訳辞書を作成し、人手で作成するよりも約60%のコストを削減した。前者の成果は、Journal of Data Science and Its Applicationsにおいて採録され、後者はACM Transactions on Asian and Low-Resource Language Information Processingに投稿中である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 基盤研究では、同族言語の対訳辞書を網羅的に生成するために、「対訳辞書の生成プランニング」に関する研究を昨年度に継続して実施し、おおむね順調に進展している。特に、今年度は対象言語が増加した場合に網羅的に辞書を生成するために、近縁言語クラスタの同定と対象言語の漸次増加に伴う再プラニング手法を考案している。具体的には、対象言語となる近縁言語クラスタを辞書作成者がインタラクティブに探索できる可視化ツールを構築している。本ツールでは、辞書作成者が設定した閾値以上の言語間類似度に対して、連結成分を抽出し近縁言語クラスタを同定する。提案手法を119のインドネシア諸語に適用し、類似度50%以上のクラスタを11個同定するとともに、複数クラスタを連結するブリッジ言語としてカロバタック語などを発見している。一方、対象言語の漸次増加に伴う再プランニング手法では、作成した対訳辞書の状態に基づいてプランニングの探索空間を随時絞り込み、一括で計算するよりも計算量を抑えてプランを生成することを可能にしている。実際に提案手法を用いてイスラミックリアウ大学と共同で実証実験を行い、インドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語、バンジャル語、パレンバン語の合計7言語21編の対訳辞書（2000対訳ペア収録）を対象に、既存の成果物に加えて11編の対訳辞書を新規作成している。
Strategy for Future Research Activity	同族言語の対訳辞書を網羅的に生成するために、今年度実施した対象言語の増加に加えて、辞書サイズの増加も必要である。これまで2000対訳ペアを目標としていたが、対訳辞書の有用性を向上させるために、目標サイズを漸次的に増加させる手法に取り組む。具体的には、生成した対訳ペアの増加分ごとに、対訳辞書の帰納的生成手法の適合率推定を事後確率により更新し、推定精度を徐々に実際の分布に近づけて、適応的にプランニングを行っていく。これにより、適合率の推定値の正確さが向上することで、一度に大規模な辞書を作成するよりも正確なコスト予測が可能になり、辞書の生成サイズの効率的な大規模化を可能にする。実証研究では、今年度対象としたインドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語、バンジャル語、パレンバン語に対して、辞書サイズを2000語から4000語に増加し、対訳辞書生成を本格化する。なお、辞書サイズの増加に伴い、作業者の確保が重要となる。そこで、昨年度同様にインドネシア大学、テレコム大学、イスラミックリアウ大学、ランブンマンクラート大学などの協力を得て作業者を集めるとともに、タスクを粒度の細かなマイクロタスクに変更したクラウドソーシングにより、より柔軟なタスク割り当てを実現する。

Research Products
(10 results)

All 2020 2019 Other

All Int'l Joint Research (1 results) Journal Article (5 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 2 results, Open Access: 3 results) Presentation (3 results) (of which Int'l Joint Research: 1 results, Invited: 1 results) Remarks (1 results)

[Int'l Joint Research] Islamic University of Riau(インドネシア)
- Country Name
  INDONESIA
- Counterpart Institution
  Islamic University of Riau
[Journal Article] Towards Language Service Creation and Customization for Low-Resource Languages2020
- Author(s)
  Donghui Lin, Yohei Murakami, Toru Ishida
- Journal Title
  
  Information
  
  Volume: 11 Pages: 67
- DOI
  10.3390/info11020067
- Peer Reviewed / Open Access
[Journal Article] Toward Formalization of Comprehensive Bilingual Dictionaries Creation Planning as Constraint Optimization Problem2020
- Author(s)
  Arbi Haza Nasution, Evizal Abdul Kadir, Yohei Murakami, Toru Ishida
- Journal Title
  
  Optimization Based Model Using Fuzzy and Other Statistical Techniques Towards Environmental Sustainability
  
  Volume: - Pages: 41-54
- DOI
  10.1007/978-981-15-2655-8_3
- Int'l Joint Research
[Journal Article] Visualizing Language Lexical Similarity Clusters: A Case Study of Indonesian Ethnic Languages2019
- Author(s)
  Arbi Haza Nasution, Yohei Murakami
- Journal Title
  
  Journal of Data Science and Its Applications (JDSA)
  
  Volume: Vol. 2, No. 2 Pages: 50-60
- DOI
  10.34818/jdsa.2019.2.23
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Two-Layer Architecture for Distributed Massively Multi-agent Systems2019
- Author(s)
  Yohei Murakami, Takao Nakaguchi, Donghui Lin, Toru Ishida
- Journal Title
  
  Massively Multi-Agent Systems II
  
  Volume: 11422 Pages: 53-65
- DOI
  10.1007/978-3-030-20937-7_4
[Journal Article] Indonesia Language Sphere: an ecosystem for dictionary development for low-resource languages2019
- Author(s)
  Yohei Murakami
- Journal Title
  
  Journal of Physics: Conf. Series
  
  Volume: 1192 Pages: -
- DOI
  10.1088/1742-6596/1192/1/012001
- Open Access
[Presentation] 対訳辞書作成のための信頼に基づくクラウドソーシングの評価2020
- Author(s)
  地田大樹，村上陽平
- Organizer
  電子情報通信学会サービスコンピューティング研究会
[Presentation] グラフ埋め込みを用いた代替サービスの推薦2020
- Author(s)
  大久保弘基，村上陽平
- Organizer
  電子情報通信学会サービスコンピューティング研究会
[Presentation] Language Sphere: A Socio-Technical Approach to Bilingual Dictionary Creation for Indigenous Languages2019
- Author(s)
  Yohei Murakami
- Organizer
  International Conference Language Technologies for All
- Int'l Joint Research / Invited
[Remarks] インドネシア言語スフィア
- URL
  http://langsphere.org/id/

2019 Fiscal Year Annual Research Report

Language Services Network for Bilingual Dictionary Creation in Low Resource Languages

Principal Investigator

村上 陽平 立命館大学, 情報理工学部, 准教授 (00435786)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] Islamic University of Riau(インドネシア)

Country Name

Counterpart Institution

[Journal Article] Towards Language Service Creation and Customization for Low-Resource Languages2020

Author(s)

Journal Title

DOI

[Journal Article] Toward Formalization of Comprehensive Bilingual Dictionaries Creation Planning as Constraint Optimization Problem2020

Author(s)

Journal Title

DOI

[Journal Article] Visualizing Language Lexical Similarity Clusters: A Case Study of Indonesian Ethnic Languages2019

Author(s)

Journal Title

DOI

[Journal Article] Two-Layer Architecture for Distributed Massively Multi-agent Systems2019

Author(s)

Journal Title

DOI

[Journal Article] Indonesia Language Sphere: an ecosystem for dictionary development for low-resource languages2019

Author(s)

Journal Title

DOI

[Presentation] 対訳辞書作成のための信頼に基づくクラウドソーシングの評価2020

Author(s)

Organizer

[Presentation] グラフ埋め込みを用いた代替サービスの推薦2020

Author(s)

Organizer

[Presentation] Language Sphere: A Socio-Technical Approach to Bilingual Dictionary Creation for Indigenous Languages2019

Author(s)

Organizer

[Remarks] インドネシア言語スフィア

URL

村上陽平立命館大学, 情報理工学部, 准教授 (00435786)