• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実績報告書

低資源言語のための言語資源作成サービスネットワークの構築

研究課題

研究課題/領域番号 17H04706
研究機関立命館大学

研究代表者

村上 陽平  立命館大学, 情報理工学部, 准教授 (00435786)

研究期間 (年度) 2017-04-01 – 2021-03-31
キーワードサービスコンピューティング / Webサービス / 低資源言語 / 言語資源
研究実績の概要

基盤研究では「対訳辞書の生成プランニングの高度化」に取り組んだ。「対訳辞書の生成プランニング」では、初期状態から言語数分の対訳辞書を作成した目標状態までの最適なプランをマルコフ決定過程を用いて生成している。対象言語が多いと探状態数が膨大となり、プランの計算コストが大きく解けない場合がある。そこで、対訳辞書の帰納的生成の精度が高いことが経験的に分かっている近縁言語クラスタに対象言語を絞り込んでから辞書の生成プランを計算できるように、インタラクティブな近縁言語クラスタリングツールを構築した。具体的には、ユーザの設定した閾値以上の言語間類似度を対象に連結成分を同定しクラスタを検出する。これにより、近縁言語クラスタを優先して対訳辞書の生成プランを計算することが可能になる。一方で、このように段階的に対象言語を拡張していく手法では、初期状態から目標状態までの最適プランを一度に計算できないため、動的な再プランニング手法を考案した。具体的には、作成した対訳辞書の状態に基づいてプランニングの探索空間を随時絞り込むことで、ポリシーを再計算してプランの最適化を行う。実際に提案手法を用いて、インドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語の辞書を作成した後に、バンジャル語とパレンバン語を追加して合計21編の対訳辞書を作成し、人手で作成するよりも約60%のコストを削減した。前者の成果は、Journal of Data Science and Its Applicationsにおいて採録され、後者はACM Transactions on Asian and Low-Resource Language Information Processingに投稿中である。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

基盤研究では、同族言語の対訳辞書を網羅的に生成するために、「対訳辞書の生成プランニング」に関する研究を昨年度に継続して 実施し、おおむね順調に進展している。
特に、今年度は対象言語が増加した場合に網羅的に辞書を生成するために、近縁言語クラスタの同定と対象言語の漸次増加に伴う再プラニング手法を考案している。具体的には、対象言語となる近縁言語クラスタを辞書作成者がインタラクティブに探索できる可視化ツールを構築している。本ツールでは、辞書作成者が設定した閾値以上の言語間類似度に対して、連結成分を抽出し近縁言語クラスタを同定する。提案手法を119のインドネシア諸語に適用し、類似度50%以上のクラスタを11個同定するとともに、複数クラスタを連結するブリッジ言語としてカロバタック語などを発見している。一方、対象言語の漸次増加に伴う再プランニング手法では、作成した対訳辞書の状態に基づいてプランニングの探索空間を随時絞り込み、一括で計算するよりも計算量を抑えてプランを生成することを可能にしている。実際に提案手法を用いてイスラミックリアウ大学と共同で実証実験を行い、インドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語、バンジャル語、パレンバン語の合計7言語21編の対訳辞書(2000対訳ペア収録)を対象に、既存の成果物に加えて11編の対訳辞書を新規作成している。

今後の研究の推進方策

同族言語の対訳辞書を網羅的に生成するために、今年度実施した対象言語の増加に加えて、辞書サイズの増加も必要である。これまで2000対訳ペアを目標としていたが、対訳辞書の有用性を向上させるために、目標サイズを漸次的に増加させる手法に取り組む。具体的には、生成した対訳ペアの増加分ごとに、対訳辞書の帰納的生成手法の適合率推定を事後確率により更新し、推定精度を徐々に実際の分布に近づけて、適応的にプランニングを行っていく。これにより、適合率の推定値の正確さが向上することで、一度に大規模な辞書を作成するよりも正確なコスト予測が可能になり、辞書の生成サイズの効率的な大規模化を可能にする。実証研究では、今年度対象としたインドネシア語、マレー語、ミナンガバウ語、ジャワ語、スンダ語、バンジャル語、パレンバン語に対して、辞書サイズを2000語から4000語に増加し、対訳辞書生成を本格化する。なお、辞書サイズの増加に伴い、作業者の確保が重要となる。そこで、昨年度同様にインドネシア大学、テレコム大学、イスラミックリアウ大学、ランブンマンクラート大学などの協力を得て作業者を集めるとともに、タスクを粒度の細かなマイクロタスクに変更したクラウドソーシングにより、より柔軟なタスク割り当てを実現する。

  • 研究成果

    (10件)

すべて 2020 2019 その他

すべて 国際共同研究 (1件) 雑誌論文 (5件) (うち国際共著 2件、 査読あり 2件、 オープンアクセス 3件) 学会発表 (3件) (うち国際学会 1件、 招待講演 1件) 備考 (1件)

  • [国際共同研究] Islamic University of Riau(インドネシア)

    • 国名
      インドネシア
    • 外国機関名
      Islamic University of Riau
  • [雑誌論文] Towards Language Service Creation and Customization for Low-Resource Languages2020

    • 著者名/発表者名
      Donghui Lin, Yohei Murakami, Toru Ishida
    • 雑誌名

      Information

      巻: 11 ページ: 67

    • DOI

      10.3390/info11020067

    • 査読あり / オープンアクセス
  • [雑誌論文] Toward Formalization of Comprehensive Bilingual Dictionaries Creation Planning as Constraint Optimization Problem2020

    • 著者名/発表者名
      Arbi Haza Nasution, Evizal Abdul Kadir, Yohei Murakami, Toru Ishida
    • 雑誌名

      Optimization Based Model Using Fuzzy and Other Statistical Techniques Towards Environmental Sustainability

      巻: - ページ: 41-54

    • DOI

      10.1007/978-981-15-2655-8_3

    • 国際共著
  • [雑誌論文] Visualizing Language Lexical Similarity Clusters: A Case Study of Indonesian Ethnic Languages2019

    • 著者名/発表者名
      Arbi Haza Nasution, Yohei Murakami
    • 雑誌名

      Journal of Data Science and Its Applications (JDSA)

      巻: Vol. 2, No. 2 ページ: 50-60

    • DOI

      10.34818/jdsa.2019.2.23

    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Two-Layer Architecture for Distributed Massively Multi-agent Systems2019

    • 著者名/発表者名
      Yohei Murakami, Takao Nakaguchi, Donghui Lin, Toru Ishida
    • 雑誌名

      Massively Multi-Agent Systems II

      巻: 11422 ページ: 53-65

    • DOI

      10.1007/978-3-030-20937-7_4

  • [雑誌論文] Indonesia Language Sphere: an ecosystem for dictionary development for low-resource languages2019

    • 著者名/発表者名
      Yohei Murakami
    • 雑誌名

      Journal of Physics: Conf. Series

      巻: 1192 ページ: -

    • DOI

      10.1088/1742-6596/1192/1/012001

    • オープンアクセス
  • [学会発表] 対訳辞書作成のための信頼に基づくクラウドソーシングの評価2020

    • 著者名/発表者名
      地田大樹,村上陽平
    • 学会等名
      電子情報通信学会サービスコンピューティング研究会
  • [学会発表] グラフ埋め込みを用いた代替サービスの推薦2020

    • 著者名/発表者名
      大久保弘基,村上陽平
    • 学会等名
      電子情報通信学会サービスコンピューティング研究会
  • [学会発表] Language Sphere: A Socio-Technical Approach to Bilingual Dictionary Creation for Indigenous Languages2019

    • 著者名/発表者名
      Yohei Murakami
    • 学会等名
      International Conference Language Technologies for All
    • 国際学会 / 招待講演
  • [備考] インドネシア言語スフィア

    • URL

      http://langsphere.org/id/

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi