研究課題
本研究では、ウェブから、実世界を投影した語彙空間を作成する方法論を確立することを目的として、特定の分野・トピック・タイプの語彙を収集する技術と、用語間の関係を推定する技術を研究している。本年度は、用語集の自動編集に必要な関連用語収集法と、対訳用語集の自動編集に必要な訳語推定法に関して成果を得た。(1)用語集の自動編集与えられた用語から、それに関連する用語をウェブから自動収集する技術を開発した。この技術は、サーチエンジンを用いて特定の分野のコーパスを作成し、そこから関連用語の候補語を抽出し、最後に、ウェブのヒット数に基づく関連度指標によって、関連用語を決定する。日本語を対象としたシステムの他に、フランス語を対象としたシステムも実装した。日本語のシステムは、約30語程度、フランス語のシステムでは、約15語程度の関連用語を85%から90%の精度で収集することができる。これらの用語集合を更に拡大する方法と、そとから、最終的に用語集の見出し語集合を決定する方法についても、検討を行なった。(2)対訳用語集の自動編集単言語の用語集が与えられた時、それぞれの用語の訳を推定して、対訳用語集を作成する枠組を提案した。この枠組では、まず、既存の辞書を利用して、いくつかの用語の訳語を決定し、それらの訳語を手がかりに、相手側言語でコーパスを作成する。要素合成法によって候補を生成できる用語に対しては、このコーパスを用いて、正しい訳を決定する。要素合成法で候補が作成できない場合は、文脈ベクトルを用いた訳語推定を適用する。本年度は、この枠組みの実現に必要な要素技術の開発とそれらの実験的検証を行なった。現時点で達成できている精度は高くないが、専門用語の翻訳対の約80%は、要素間に対応がとれるため、このような枠組みは有望と考えられる。
すべて 2005 2004 その他
すべて 雑誌論文 (11件)
言語処理学会第11回年次大会発表論文集
ページ: 13-16
ページ: 21-24
ページ: 352-355
ページ: 891-894
ページ: 895-898
情報処理学会研究報告,2004-NL-162 2004・73
ページ: 57-63
ページ: 65-70
Proceedings of the 20th International Conference on Computational Linguistics 1036-1042
ページ: 1036-1042
情報処理学会研究報告,2004-NL-164 2004・108
ページ: 25-32
ページ: 33-40
ページ: 17-20