2011 Fiscal Year Annual Research Report
Project/Area Number |
21300094
|
Research Institution | Nagoya University |
Principal Investigator |
佐藤 理史 名古屋大学, 工学研究科, 教授 (30205918)
|
Keywords | 多言語処理 / 辞書自動編纂 / 外国人名対訳 / カタカナ語 / 表記ゆれ |
Research Abstract |
辞書は、人間の知的活動を支える重要なツールである。その一方で、辞書編纂には膨大な労力が必要である。本研究では、辞書編纂の自動化を目標に、それに必要な設計・編纂法および自動編纂技術の開発に取り組んだ。 本研究の主要成果物である『紬2012:外国人名対訳辞典』は、外国人名のアルファベット表記(原綴)とカタカナ表記の対応を示したものである。見出し語には、人名を構成する要素(姓と名)を採用し、アルファベット見出し52,018件、カタカナ見出し45,600件、総実例数(人名対訳数)150,744件を収録している。この辞書は、(1)カタカナ表記の人名の自動収集、(2)対応するアルファベット表記の自動推定、(3)見出し語の自動選定、(4)実例の自動選定、(5)自動タイプセッティング、の処理を経て自動編纂されている。本年度は、(3)を中心に研究を進め、(3)-(5)を実現して、辞書を完成させた。 辞書の利用者は、ある語が辞書に載っていることを期待して辞書を引く。つまり、見出し語集合は、利用者にとって想定可能な集合となっていなければならない(メンバーシップ予測性)。見出し語集合の設計では、メンバーシップ予測性を持つような適切な内包的定義と、実データを踏まえた見出し語数の設計が重要である。上述の辞書では、「外国人名を構成する要素(姓と名)の主要なもの」という内包的定義を採用し、これまでに収集済みの35万件の人名対訳候補と米国の国勢調査等のデータより、約5万件という見出し語数を定めた後、プログラムにより(3)-(5)を自動化した。その結果、米国の人口の60%をカバーするために必要な人名要素数の95%以上をカバーする辞書となった。 本年度は、この他に、カタカナ語辞書の自動編纂の研究を行い、表記ゆれを吸収する辞書引き方法について成果を得た。
|
Research Products
(4 results)