• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

Language Services Network for Bilingual Dictionary Creation in Low Resource Languages

Research Project

Project/Area Number 17H04706
Research InstitutionKyoto University

Principal Investigator

村上 陽平  京都大学, デザイン学ユニット, 特定准教授 (00435786)

Project Period (FY) 2017-04-01 – 2021-03-31
Keywordsサービスコンピューティング / Webサービス / 低資源言語 / 言語資源
Outline of Annual Research Achievements

基盤研究において、「対訳辞書の帰納的生成」と「対訳辞書の生成プランニング」に取り組んだ。「対訳辞書の帰納的生成」は、過去の研究によって、同族言語間の語義の類似性に関する意味的制約を用いた最適化問題として定式化されており、それを解くことで従来手法より適合率を向上させることが分かっていた。本研究では、この適合率を維持しつつ、再現率を向上させるために、制約最適化アプローチの一般化フレームワークを提案した。具体的には、制約およびコストの重み付け関数と閾値をパラメータ化することで、言語間の類似度や既存辞書のサイズに応じて制約最適化問題を適応させられるようにしている。一方、「対訳辞書の生成プランニング」では、同言語族の近縁言語全体の対訳辞書の生成コストを最小化するために、マルコフ決定過程に基づく対訳辞書生成プランニング手法を提案した。前者の成果は、ACM Transactions on Asian and Low-Resource Language Information Processingにおいて採録され、後者は国際会議Culture and Computing2017で発表している。
実証研究において、基盤研究の成果を組み合わせた対訳辞書生成プラットフォームのプロトタイプを開発し、インドネシア語、マレー語、スンダ語、ジャワ語、ミナンカバウ語の5言語を対象に全言語ペア分の対訳辞書を生成する事前実験を行った。本実証実験により「対訳辞書の生成プランニング」で用いた対訳辞書モデルの妥当性を検証するとともに、提案プラットフォームによるコスト削減について定量的に評価を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

基盤研究では、同族言語の対訳辞書を網羅的に生成するために「対訳辞書の帰納的生成」と「対訳辞書の生成プランニング」に関する研究を実施し、おおむね順調に進展している。まず、対訳辞書の帰納的生成の性能を向上させるために、従来研究によって定式化された意味的制約を用いた最適化問題を一般化したフレームワークを提案した。具体的には、言語間の類似度や既存辞書のサイズに応じて制約およびコストの重み付け関数を適応できるようにパラメータ化するとともに、ピボット単語の多義性を考慮した制約を導入した。この結果、インドネシア語、マレー語、ミナンカバウ語やドイツ語、英語、オランダ語など4種類の同言語族の3言語組に対して、従来手法よりも適合率で0.1程度下げつつも、再現率を0.5程度増加させ、F値を最大0.3程度向上させている。次に、4言語以上の言語から複数の対訳辞書を作成するコストを最小化するために、マルコフ決定過程に基づく対訳辞書生成プランニング手法を考案し、人手による辞書作成と対訳辞書の帰納的生成を組み合わせた最適戦略を導出している。実際に導出された最適戦略を評価するために、インドネシア大学、テレコム大学、イスラミックリアウ大学の協力のもと、インドネシア語、マレー語、スンダ語、ジャワ語、ミナンカバウ語を対象に対訳辞書生成する実証実験を小規模に実施した。これにより、5言語分の10編の対訳辞書を作成するのに、全て人手で作成するよりも、40%程度コストを削減できることを確認している。

Strategy for Future Research Activity

基盤研究において、まず、課題1の「対訳辞書の帰納的生成」と課題2の「対訳辞書の生成プランニング」を発展させ、その成果を同言語族の対訳辞書生成に大規模に展開する際の問題点を解決する。例えば、対象となる言語が増えるにつれて、既存の対訳辞書の数が少なく、対訳辞書の帰納的生成を多段に適用する必要が生じる。これにより小規模の事前実験と比べて帰納的生成の精度が低下することが考えられる。そこで、二つの対訳辞書を入力とする帰納的生成手法を発展させて、三つ以上の対訳辞書を入力できるように拡張する。具体的には、ピボット言語が共有されたり連鎖されたグラフから、制約最適化アルゴリズムで対訳関係を抽出し、計算の途中結果を他の対訳辞書の生成に活用することで精度の改善を行う。また、課題2においても、事前実験を踏まえて対訳辞書モデルの改善と遷移確率の修正を行い、コストの見積もり精度の向上を目指す。また、課題3の「対訳辞書の精錬のためのオンラインメカニズム」に関する研究を進め、まずはマルコフ決定過程を用いた対訳辞書生成プランニングを一般化し、動的にプランを生成するサービス合成問題として定式化を行う。
実証研究において、引き続き、インドネシア大学、テレコム大学、イスラミックリアウ大学と連携し、地域の民族組織にもアクセスし実験に参加可能な地方語話者の募集を続けることで実証実験の体制を強固にする。さらに、小規模の実証実験を繰り返し実施することで、基盤研究の成果を順次反映して、提案モデルの妥当性や手法の有用性を検証していく予定である。

  • Research Products

    (11 results)

All 2018 2017

All Journal Article (2 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 5 results,  Invited: 1 results) Book (4 results)

  • [Journal Article] Role-Based Modeling for Designing Agent Behavior in Self-Organizing Multi-Agent Systems2018

    • Author(s)
      Kemas M. Lhaksmana, Yohei Murakami, Toru Ishida
    • Journal Title

      International Journal of Software Engineering and Knowledge Engineering

      Volume: Vol. 28, No. 1 Pages: 79-96

    • DOI

      10.1142/S0218194018500043

    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] A Generalized Constraint Approach to Bilingual Dictionary Induction for Low-Resource Language Families2018

    • Author(s)
      Arbi Haza Nasution, Yohei Murakami, Toru Ishida
    • Journal Title

      ACM Transactions on Asian and Low-Resource Language Information Processing

      Volume: Vol. 17, No. 2 Pages: 9:1-9:28

    • DOI

      10.1145/3138815

    • Peer Reviewed / Open Access
  • [Presentation] The Language Grid:Towards a Worldwide Language Service Infrastructure2017

    • Author(s)
      Yohei Murakami
    • Organizer
      The International Conference on Science Enginering and Technology (ICoSET 2017)
    • Int'l Joint Research / Invited
  • [Presentation] Similarity Cluster of Indonesian Ethnic Languages2017

    • Author(s)
      Arbi Haza Nasution, Yohei Murakami, Toru Ishida
    • Organizer
      The International Conference on Science Enginering and Technology (ICoSET 2017)
    • Int'l Joint Research
  • [Presentation] Federation of Language Service Infrastructures for Global Collaboration2017

    • Author(s)
      Takao Nakaguchi, Yohei Murakami, Donghui Lin, Toru Ishida
    • Organizer
      The International Conference on Culture and Computing (Culture and Computing 2017)
    • Int'l Joint Research
  • [Presentation] Plan Optimization for Creating Bilingual Dictionaries of Low-Resource Languages2017

    • Author(s)
      Arbi Haza Nasution, Yohei Murakami, Toru Ishida
    • Organizer
      The International Conference on Culture and Computing (Culture and Computing 2017)
    • Int'l Joint Research
  • [Presentation] Situated Sensor Composition For Event-Based System2017

    • Author(s)
      Junta Koyama, Yohei Murakami, Donghui Lin
    • Organizer
      The 14th IEEE International Conference on Services Computing (IEEE SCC 2017)
    • Int'l Joint Research
  • [Book] Services Computing for Language Resources, Federated Grid Architecture for Language Services. (Chapter in book)2018

    • Author(s)
      Yohei Murakami, Takao Nakaguchi, Donghui Lin and Toru Ishida
    • Total Pages
      225 (3-20)
    • Publisher
      Springer Singapore
    • ISBN
      978-981-10-7793-7
  • [Book] Services Computing for Language Resources, Language Service Composition Based on Higher Order Functions. (Chapter in book)2018

    • Author(s)
      Takao Nakaguchi, Yohei Murakami, Donghui Lin and Toru Ishida
    • Total Pages
      225 (41-56)
    • Publisher
      Springer Singapore
    • ISBN
      978-981-10-7793-7
  • [Book] Services Computing for Language Resources, Policy-Aware Language Service Composition. (Chapter in book)2018

    • Author(s)
      Trang Mai Xuan, Yohei Murakami and Toru Ishida
    • Total Pages
      225 (57-74)
    • Publisher
      Springer Singapore
    • ISBN
      978-981-10-7793-7
  • [Book] Services Computing for Language Resources, Language Service Design Based on User-Centered QoS. (Chapter in book)2018

    • Author(s)
      Donghui Lin, Toru Ishida and Yohei Murakami
    • Total Pages
      225 (125-137)
    • Publisher
      Springer Singapore
    • ISBN
      978-981-10-7793-7

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi