研究概要 |
本研究課題では,特に語彙ギャップ(ある言語における語彙に直接対応する語彙が別の言語において存在しないという現象)に注目することにより,概念語彙化の言語による差異を分析・記述するための方法論を明らかにすることを目的とする。ここで,日本語・英語の利用可能な語彙資源を数多く組み合わせて用いることにより,収集した語彙ギャップに関するデータを定量的に分析する計算論的アプローチをとる. 本年度は,主に『語彙ギャップ事例の収集』の課題に取り組んだ.本手法は,言語Xにおける語彙ユニットU_xが言語Yにおいて語彙化されているかを調べ,語彙化されていない場合,その語彙ギャップを埋める(gap filling)表現(以下,語彙ギャップ表現)を求めることにより語彙ギャップ事例を収集する. 語彙ギャップの事例収集のためには,まず対訳辞書に記載されている訳語の語義を特定する「語義対応付け」が必要となる.このために対訳辞書における訳語表現と単言語辞書における語義定義文との異言語表現間の類似度を数量化するマッチング手法を実装し,評価を実施中である,なお具体的な語彙資源として,単言語・概念辞書(日本語:Lexeed,EDR電子化辞書,英語:WbrdNet, EDR電子化辞書,LDOCE),対訳辞書(EDR電子化辞書,EDICT)を用いた. 次に,訳語情報として与えられている表現が語彙化されているかを判定する必要がある.本年度は,この「語彙化判定」の問題に深く関係する複合語表現(MWE : Multi-Wbrd Experession)に関する研究の調査を進めたが,具体的な手法の開発には至らなかった.一方,どのような語彙集合を双方の言語で想定するかも検討に大きく影響するため,「対象語彙集合の決定」を行う必要があり.日本語の基本語意味データベースLexeedの基本語彙相当の英語の語彙リストについての調査を継続中である.
|