2012 年度実績報告書

多義性が解消された多言語辞書の自動構築に関する研究

研究課題

研究課題/領域番号	22300032
研究機関	静岡大学
研究代表者	梶博行静岡大学, 情報学部, 教授 (20402232)
研究分担者	許山秀樹静岡大学, 情報学部, 教授 (10257230) 綱川隆司静岡大学, 情報学部, 助教 (30611214)
研究期間 (年度)	2010-04-01 – 2013-03-31
キーワード	多言語処理 / 対訳辞書 / コンパラブルコーパス / 文脈
研究概要	機械翻訳や言語横断情報検索の高度化に資する「多義性が解消された多言語辞書」をいくつかの言語対の対訳辞書と各言語のテキストコーパスから自動構築するため、２言語以上の対訳語の組と組の間で一つ以上の語が共有され、共有されていない語の各々が出現する文脈の類似度が閾値を超えるとき、これら２つの対訳語の組をマージした語の組を対訳語の組として追加する手続きを反復する方法を提案した。提案方法では、ウィンドウ共起に基づく相関値の重みを付けた“関連語”の集合で文脈を表現する。関連語はそれぞれの言語の語であり、文脈類似度を計算するには種となる対訳辞書が必要であるが、文脈類似度を計算すべき言語対の対訳辞書は、通常、利用できない。いくつかの言語を介して他の言語対の対訳辞書をマージした“ノイズの多い”種辞書を使用することによる精度の低下を最小限に抑えるため、文脈類似度の尺度として関連語集合の重み付き重なり率を考案した。すなわち、相手言語の重み付き関連語集合中の少なくとも一つの語と対訳関係が成立する関連語の重みの和の、すべての関連語の重みの和に対する比率で文脈類似度を評価する。日英辞書と中英辞書、日本語と中国語の新聞記事コーパスから日中英辞書を生成する実験において、一方の文脈ベクトルを相手言語に翻訳してコサイン係数を計算する標準的な方法によるＦ値が0.69（適合率0.78）であるのに対し、関連語集合の重み付き重なり率によるＦ値は0.73（適合率0.83）であり、その有効性を確認した。提案方法はコーパスに用例が含まれない対訳語の組を棄却してしまうので、再現率は高くない。しかし、様々な分野のコーパスを用いた結果を累積することにより実際的な再現率は上昇する。新聞記事コーパスのほかWikipediaコーパスを用いた実験を行い、このことを実証した。
現在までの達成度 (区分)	理由 24年度が最終年度であるため、記入しない。
今後の研究の推進方策	24年度が最終年度であるため、記入しない。

研究成果
(4件)

すべてその他

すべて学会発表 (3件) 備考 (1件)

[学会発表] Improving Compositional Translation with Comparable Corpora
- 著者名/発表者名
  梶　博行
- 学会等名
  The 5th Workshop on Building and Using Comparable Corpora
- 発表場所
  Lutfi Kirdar Convention & Exhibition Centre（トルコ）
[学会発表] 第３言語を介した対訳辞書生成におけるコンパラブルコーパスの利用
- 著者名/発表者名
  山元陽祐
- 学会等名
  第10回情報学ワークショップ
- 発表場所
  豊橋技術科学大学（豊橋市）
[学会発表] 複数の２言語辞書とコンパラブルコーパスからの多言語辞書の生成
- 著者名/発表者名
  山元陽祐
- 学会等名
  言語処理学会第19回年次大会
- 発表場所
  名古屋大学（名古屋市）
[備考] 静岡大学情報学部梶研究室
- URL
  http://nlp.cs.inf.shizuoka.ac.jp/

2012 年度 実績報告書

多義性が解消された多言語辞書の自動構築に関する研究

研究代表者

梶 博行 静岡大学, 情報学部, 教授 (20402232)

理由

研究成果

[学会発表] Improving Compositional Translation with Comparable Corpora

著者名/発表者名

学会等名

発表場所

[学会発表] 第３言語を介した対訳辞書生成におけるコンパラブルコーパスの利用

著者名/発表者名

学会等名

発表場所

[学会発表] 複数の２言語辞書とコンパラブルコーパスからの多言語辞書の生成

著者名/発表者名

学会等名

発表場所

[備考] 静岡大学情報学部梶研究室

URL

2012 年度実績報告書

梶博行静岡大学, 情報学部, 教授 (20402232)