研究概要 |
本研究ではWWW(ワールドワイドウェブ)上の新聞社などの報道記事のページから日本語・英語等,異なった言語で書かれた文書を収集し,多種多様な分野について,分野固有の人名・地名・組織名などの固有名詞(固有表現)や事象・言い回しなどの翻訳知識を獲得する手法を研究する.本年度は,同時期に多言語で書かれたWWW上の報道記事のページから,同一内容の各言語記事の組を収集し,二言語間で翻訳関係にある部分を対応付ける手法の研究を行った.本年度の研究項目は次の3点である. 1.WWWからの対訳文書組の収集 2.対訳文書中の翻訳部分の二言語間対応付け技術の研究 3.多言語情報抽出技術の研究 まず,第1点については,同時期に日本語および英語など多言語で書かれたWWW上の報道記事のページから,同一内容の各言語記事の組の収集する技術について研究を行った.この手法においては,片方の言語の文書全体を検索キーとみなして言語横断文書検索を行なうことにより,別の言語で書かれた同一内容の記事を検索し,多言語記事組の候補を収集した. 第2点については,二言語で書かれた記事の間で翻訳関係にある部分の対応を付けるために,各言語の記事中の文の組合せが翻訳関係にあるか否かを推定し,実際に翻訳関係にある文の組を選定する手法について研究を行った. 第3点については,基盤技術として研究を行ってきた多言語汎用情報抽出手法に基づいて,日本語・英語など各単言語の文章中で,分野特有の様々な固有名詞(固有表現)や事象・言い回しなどを抽出する情報抽出システムを開発した.
|