• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

多義性が解消された多言語辞書の自動構築に関する研究

Research Project

Project/Area Number 22300032
Research InstitutionShizuoka University

Principal Investigator

梶 博行  静岡大学, 情報学部, 教授 (20402232)

Co-Investigator(Kenkyū-buntansha) 許山 秀樹  静岡大学, 情報学部, 教授 (10257230)
綱川 隆司  静岡大学, 情報学部, 助教 (30611214)
Keywords多言語処理 / 対訳辞書 / 語義 / コーパス / 文脈
Research Abstract

機械翻訳や言語横断情報検索の高度化に資する「多義性が解消された多言語辞書」をいくつかの言語対の対訳辞書と各言語のテキストコーパスから自動構築する手法の開発を目的として、具体的には日本語、英語、中国語の3言語を対象として研究を進めた。
まず、昨年度実装した「英語をピボット言語として日英対訳辞書と英中対訳辞書を結合することによって得られる対訳3つ組候補の中から、日本語と中国語の語が出現する文脈の類似度が高いものを選択する」方法の問題点を分析し、(1)異なる言語の語の文脈の類似度を計算するため文脈を翻訳する際に使用する対訳辞書は文脈を抽出するコーパスに適応させるべきであること、(2)対訳3つ組を構成する日本語および/または中国語の語が多義語である場合、対訳関係は特定の語義に関してのみ成立するので、厳密には"語"の文脈でなく"語義"の文脈の類似度を計算すべきであることを明らかにした。
次に、(1)の具体的な方法として、単言語コーパスの組から翻訳確率行列を推定し、得られた翻訳確率行列にしたがって文脈ベクトルを翻訳する方法を提案した。毎日新聞記事コーパスと新華社通信記事コーパスを用いた評価実験を行い、提案方法によって計算される文脈類似度に基づく対訳3つ組の選択精度がベースライン(文脈ベクトルの各要素を対訳辞書が与える全ての訳語に翻訳して計算される文脈類似度による場合)より向上することを確認した。
また、(2)に関しては、対象語(対訳3つ組候補を構成する語)の文脈を構成する語をクラスタリングするアプローチを採用することとし、有効なクラスタを抽出するためのアイデアとして、(a)対象語と特に関連の強い語を種とするクラスタリングと(b)対象語の語義のgloss(辞書に記述された語義の説明文)を種とするクラスタリングの二つの方法を提案した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

異なる言語の語の文脈の類似度を計算するために必要な「文脈の翻訳」における訳語の曖昧性の問題に対する解決策として「単言語コーパスの組からの翻訳確率行列の推定」を提案し、有効性を確認した。また、本研究課題の最も困難な問題である「語の文脈から語義の文脈への分割」について、対象語と特に関連の強い語あるいは対象語のglossを種とするクラスタリングというアイデアを得ることができた。

Strategy for Future Research Activity

「語の文脈から語義の文脈への分割」の実装・評価を中心に進める。まずは、対象語と特に関連の強い語を種とするクラスタリングと対象語のglossを種とするクラスタリングをベースライン(種のないクラスタリング)と比較評価する。また、「単言語コーパスの組からの翻訳確率行列の推定」については最適化を検討する。さらに、多言語対訳辞書の生成という研究課題全体の目的に関して、提案方法のようにコーパスを用いなくても決定できる対訳3つ組(例えば、日英、英中、中日の3つの対訳辞書から循環的な関係が得られる3つ組)も存在するので、それについても調査、検討する。

  • Research Products

    (5 results)

All 2012 2011

All Presentation (5 results)

  • [Presentation] コンパラブルコーパスを用いたWordNetの自動翻訳2012

    • Author(s)
      榊原徹也
    • Organizer
      言語処理学会第18回年次大会
    • Place of Presentation
      広島市立大学(広島市)
    • Year and Date
      2012-03-15
  • [Presentation] コンパラブルコーパスとWebを用いた用語翻訳器2012

    • Author(s)
      小松原慶啓
    • Organizer
      言語処理学会第18回年次大会
    • Place of Presentation
      広島市立大学(広島市)
    • Year and Date
      2012-03-15
  • [Presentation] コンパラブルコーパスを用いたWordNetの自動翻訳2011

    • Author(s)
      榊原徹也
    • Organizer
      第9回情報学ワークショップ
    • Place of Presentation
      豊橋技術科学大学(豊橋市)
    • Year and Date
      2011-11-26
  • [Presentation] コンパラブルコーパスとWebを用いた用語翻訳器2011

    • Author(s)
      小松原慶啓
    • Organizer
      第9回情報学ワークショップ
    • Place of Presentation
      豊橋技術科学大学(豊橋市)
    • Year and Date
      2011-11-26
  • [Presentation] Term Translation Using Comparable Corpora and the Web2011

    • Author(s)
      梶博行
    • Organizer
      The 11th Japan-China Natural Language Processing Joint Research Promotion Conference
    • Place of Presentation
      宮崎プラザホテル(宮崎市)(招待講演)
    • Year and Date
      2011-10-29

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi