研究課題/領域番号 |
22300032
|
研究機関 | 静岡大学 |
研究代表者 |
梶 博行 静岡大学, 情報学部, 教授 (20402232)
|
研究分担者 |
許山 秀樹 静岡大学, 情報学部, 教授 (10257230)
綱川 隆司 静岡大学, 情報学部, 助教 (30611214)
|
研究期間 (年度) |
2010-04-01 – 2013-03-31
|
キーワード | 多言語処理 / 対訳辞書 / コンパラブルコーパス / 文脈 |
研究概要 |
機械翻訳や言語横断情報検索の高度化に資する「多義性が解消された多言語辞書」をいくつかの言語対の対訳辞書と各言語のテキストコーパスから自動構築するため、2言語以上の対訳語の組と組の間で一つ以上の語が共有され、共有されていない語の各々が出現する文脈の類似度が閾値を超えるとき、これら2つの対訳語の組をマージした語の組を対訳語の組として追加する手続きを反復する方法を提案した。 提案方法では、ウィンドウ共起に基づく相関値の重みを付けた“関連語”の集合で文脈を表現する。関連語はそれぞれの言語の語であり、文脈類似度を計算するには種となる対訳辞書が必要であるが、文脈類似度を計算すべき言語対の対訳辞書は、通常、利用できない。いくつかの言語を介して他の言語対の対訳辞書をマージした“ノイズの多い”種辞書を使用することによる精度の低下を最小限に抑えるため、文脈類似度の尺度として関連語集合の重み付き重なり率を考案した。すなわち、相手言語の重み付き関連語集合中の少なくとも一つの語と対訳関係が成立する関連語の重みの和の、すべての関連語の重みの和に対する比率で文脈類似度を評価する。日英辞書と中英辞書、日本語と中国語の新聞記事コーパスから日中英辞書を生成する実験において、一方の文脈ベクトルを相手言語に翻訳してコサイン係数を計算する標準的な方法によるF値が0.69(適合率0.78)であるのに対し、関連語集合の重み付き重なり率によるF値は0.73(適合率0.83)であり、その有効性を確認した。 提案方法はコーパスに用例が含まれない対訳語の組を棄却してしまうので、再現率は高くない。しかし、様々な分野のコーパスを用いた結果を累積することにより実際的な再現率は上昇する。新聞記事コーパスのほかWikipediaコーパスを用いた実験を行い、このことを実証した。
|
現在までの達成度 (区分) |
理由
24年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
24年度が最終年度であるため、記入しない。
|