研究課題/領域番号 |
22300032
|
研究機関 | 静岡大学 |
研究代表者 |
梶 博行 静岡大学, 情報学部, 教授 (20402232)
|
研究分担者 |
許山 秀樹 静岡大学, 情報学部, 教授 (10257230)
綱川 隆司 静岡大学, 情報学部, 助教 (30611214)
|
キーワード | 多言語処理 / 対訳辞書 / 語義 / コーパス / 文脈 |
研究概要 |
機械翻訳や言語横断情報検索の高度化に資する「多義性が解消された多言語辞書」をいくつかの言語対の対訳辞書と各言語のテキストコーパスから自動構築する手法の開発を目的として、具体的には日本語、英語、中国語の3言語を対象として研究を進めた。 まず、昨年度実装した「英語をピボット言語として日英対訳辞書と英中対訳辞書を結合することによって得られる対訳3つ組候補の中から、日本語と中国語の語が出現する文脈の類似度が高いものを選択する」方法の問題点を分析し、(1)異なる言語の語の文脈の類似度を計算するため文脈を翻訳する際に使用する対訳辞書は文脈を抽出するコーパスに適応させるべきであること、(2)対訳3つ組を構成する日本語および/または中国語の語が多義語である場合、対訳関係は特定の語義に関してのみ成立するので、厳密には"語"の文脈でなく"語義"の文脈の類似度を計算すべきであることを明らかにした。 次に、(1)の具体的な方法として、単言語コーパスの組から翻訳確率行列を推定し、得られた翻訳確率行列にしたがって文脈ベクトルを翻訳する方法を提案した。毎日新聞記事コーパスと新華社通信記事コーパスを用いた評価実験を行い、提案方法によって計算される文脈類似度に基づく対訳3つ組の選択精度がベースライン(文脈ベクトルの各要素を対訳辞書が与える全ての訳語に翻訳して計算される文脈類似度による場合)より向上することを確認した。 また、(2)に関しては、対象語(対訳3つ組候補を構成する語)の文脈を構成する語をクラスタリングするアプローチを採用することとし、有効なクラスタを抽出するためのアイデアとして、(a)対象語と特に関連の強い語を種とするクラスタリングと(b)対象語の語義のgloss(辞書に記述された語義の説明文)を種とするクラスタリングの二つの方法を提案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
異なる言語の語の文脈の類似度を計算するために必要な「文脈の翻訳」における訳語の曖昧性の問題に対する解決策として「単言語コーパスの組からの翻訳確率行列の推定」を提案し、有効性を確認した。また、本研究課題の最も困難な問題である「語の文脈から語義の文脈への分割」について、対象語と特に関連の強い語あるいは対象語のglossを種とするクラスタリングというアイデアを得ることができた。
|
今後の研究の推進方策 |
「語の文脈から語義の文脈への分割」の実装・評価を中心に進める。まずは、対象語と特に関連の強い語を種とするクラスタリングと対象語のglossを種とするクラスタリングをベースライン(種のないクラスタリング)と比較評価する。また、「単言語コーパスの組からの翻訳確率行列の推定」については最適化を検討する。さらに、多言語対訳辞書の生成という研究課題全体の目的に関して、提案方法のようにコーパスを用いなくても決定できる対訳3つ組(例えば、日英、英中、中日の3つの対訳辞書から循環的な関係が得られる3つ組)も存在するので、それについても調査、検討する。
|