ウェブからの日仏対訳語彙、異形、句抽出システムの研究開発とその多言語への拡張
Project/Area Number |
04F04038
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 外国 |
Research Field |
情報図書館学・人文社会情報学
|
Research Institution | National Institute of Informatics |
Host Researcher |
影浦 峡 国立情報学研究所, 人間・社会情報研究系, 助教授
|
Foreign Research Fellow |
FATIHA Sadat 国立情報学研究所, 人間・社会情報研究系, 外国人特別研究員
|
Project Period (FY) |
2004
|
Project Status |
Completed (Fiscal Year 2004)
|
Budget Amount *help |
¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2004: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 用語抽出 / 対訳抽出 / コンパラブル・コーパス / 複合語 |
Research Abstract |
次の3点について研究を行なった。 1 非対訳・類似テーマコーパスからの語彙抽出手法として、日本語の単語とフランス語の単語とで対訳となりうる候補を、それらの単語が出現する文脈の近さを測定することにより抽出する手法をインプリメントした。標準的な文脈ベクタを用いた手法では、日本語とフランス語の注目語に対して、その出現文脈から単語(文脈語)を取り出し、辞書を用いて日仏の文脈語の同一性を認定した上で、その文脈ベクタを用いた注目語の近さを測定する。本研究では、この際の重み付けを改善したことに加え、言語的な知識を用いたフィルタリングを行い、抽出の精度を高めることに成功した。 しかしながら、相変わらず、低頻度要素に対する訳語対抽出については、課題が残る。これについては、日英では文字列類似度により、低頻度要素に多いカタカナ語をカバーできるが、フランス語との対応でこれらが利用可能かどうかについては、今後の課題としたい。 2 日本語とフランス語のそれぞれにつき、専門語を構成する複合語のパターンを、品詞および日本語では語種を用いて定義し、各言語についての抽出精度を評価した。TMREC用語抽出テストベッドでは、統計的重み付けを用いないパターン抽出で、既存のシステムよりよいパフォーマンスを出すことがわかった。これは、日本語では一見したところ複合語の単位は簡単に定義できそうであるが、実際にはきめ細かい定義が極めて重要であることを示すものである。 3 日仏の対訳専門用語抽出パターンを定義・評価するために、日仏科学技術用語のデータを作成した。
|
Report
(1 results)
Research Products
(2 results)