Budget Amount *help |
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2006: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 2005: ¥500,000 (Direct Cost: ¥500,000)
|
Research Abstract |
本研究では,次の3つを行った。即ち,(a)既存の辞書や翻字パターンに基づいて,同義語・訳語候補を効果的に生成する手法を開発する。例えば英語複合語においては語尾を適宜形容詞形に変える処理の有効性を検証する,あるいは効果的な翻字パターンを同定するといった研究を行う。これらはいわばルールベースによる候補生成研究と言える。(b)Webから特定の文章表現に基づいて同義語・訳語を抽出する手法を開発する。具体的には,辞書が挙げる同義語・訳語の対をそれぞれサーチエンジンで検索し,Webで同義語や訳語が現れている文章表現を調べ,「別名」「略称」といったそれぞれの抽出に有用な特徴的表現を把握する。さらに得られた表現を利用することで,Webからどの程度同義語・訳語が抽出できるかを調査する。(a)に対してこちらは,実際に存在する語を候補とする研究と言える。(c)(a)の辞書・翻字パターンに基づいて得られた候補語と,(b)の文章表現に基づいて得られた候補語とをサーチエンジンに送ることで,適切な同義語・訳語を絞り込む手法を検討する。 本研究の結果,上に挙げた手法・アイデアのいくつかはある程度有効ではあったが,先行研究を上回るようなパフォーマンスを得ることはできなかった。同義語が互いに結びついて存在しているWebページでは,結びつきを示す言語表現としてサンプルの犬半を占めるのは括弧("("や")"など)であり,これら括弧は既存のサーチエンジンでは検索できないという点で,Webからの同義語抽出にはあまり役に立たないことが分かった。
|