2003 年度研究成果報告書概要

日英パラレル・コーパスの構築とその利用

研究課題

研究課題/領域番号	14580310
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	教科教育
研究機関	立命館大学 (2003) 東海大学 (2002)
研究代表者	朝尾幸次郎立命館大学, 文学部, 教授 (40102462)
研究期間 (年度)	2002 – 2003
キーワード	英語 / 日本語 / パラレル / コーパス / パラレル・コーパス / 英語教育 / コーパス言語学
研究概要	(1)日本語と英語を対応させたテキストをデータとして、日本語から英語を、英語から日本語を検索するパラレル・コーパスを構築した。構築したコーパスは日本国憲法、教育基本法など著作権がない公的なもののほか、『朝日新聞』の「天声人語」と「社説」、『エヌ氏の遊園地』(星新一)、『窓ぎわのトットちゃん』(黒柳徹子)など日英語でデータが得られるものである。 (2)日英語で意味を対応させる方法として「最短一致の原則」を提案した。センテンスを単位に対応させてゆき、対応する意味のまとまりが最短になるように切り分ける方法である。 (3)検索プログラムはコマンドラインから利用する研究用のものの他、Perl/CGIによりWebページから利用できる一般向けのものを開発した。テキストは両言語で対応がなされているものであれば、どのようなものでも利用可能な汎用パラレル・コーパス検索プログラムである。 (4)パラレル・コーパスを用いた研究例として、「では」とthenの対応について調査を行った。「(それ)では」とthenは日英語で奇妙に入り組んでおり、これまでの辞書記述では十分でないことが知見として得られた。日本語で「(それ)では」と明示的に現れている場合でも英文テキストではそれが表に現れない場合が多い。英語でthenが用いられる場面ではそこに明確な根拠がある場合が多いようだ。 (5)報告書ではパラレル・コーパス検索のさまざまな例を提示し、スクリプトを公開した。スクリプトには詳細な説明を付しており、改変を容易に行うことができる。報告書はスクリプトの解説と検索プログラムのマニュアルも兼ねている。 (6)パラレル・コーパス関係で発表した成果を資料として添付した。