研究課題
本研究では、実際に複数の辞書の自動編纂を実現することを通して、辞書編纂の自動化に必要な設計・編纂法と、それに対応する自動編纂技術を開発することを目的としている。本年度は次のことを行った。(1) 高品質な外国人名対訳辞書の自動編纂を目指し、昨年度収集した対訳データのクリーニング(雑音除去)に取り組んだ。個々の対訳の採否判定には、ウェブサーチエンジンから得られる各種ヒット数、統計的手法により計算される人名らしさ、対応関係のもっともらしさ等を用いて総合的に判定する方法を採用したが、高い精度を実現することはかなり難しいことがわかった。同時に、精度を測定する方法にも工夫が必要であることが明らかになった。(2) 選択型(非生産型)トランスリタレーションのシステムを実装し、さらなる改良を行って、速度を数倍向上させた。このシステムを利用することによって、2つの言語の大規模人名リストから対訳を発見(収集)することができることを確認した。これにより、2つの言語で、それぞれ高品質、かつ巨大な人名リストを編纂することができれば、高品質な外国人名対訳辞書を自動編纂することができる見通しを得た。(3) カタカナ語の自動編纂に必要な要素技術を検討した。原綴推定に関しては、短い語は既存の辞書を利用し、長い語は選択型トランスリタレーションを利用する。カタカナ8文字以上であれば、選択型トランスリタレーションで原綴推定が実用的な精度で実現できる見通しを得た。(4) 言い換え辞書の自動編纂の一つの要素技術として、オノマトペの言い換えを自動収集する方法を実現した。この方法は、「きっぱり(強く)と否定する」、「きっぱりと(潔く)諦める」のように、文脈(動詞との共起)に応じて異なる言い換えを見つけることができる点に特徴がある。
すべて 2011 2010 その他
すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (1件) 備考 (1件)
Riao-2010 (9th international conference on Adaptivity, Personalization and Fusion of Heterogeneous Information)
Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10)
http://kotoba.nuee.nagoya-u.ac.jp