1990 Fiscal Year Annual Research Report
対訳文章デ-タの句・単語対応の自動決定に関する研究
Project/Area Number |
02452161
|
Research Institution | Kyoto University |
Principal Investigator |
長尾 真 京都大学, 工学部, 教授 (30025960)
|
Co-Investigator(Kenkyū-buntansha) |
佐藤 理史 京都大学, 工学部, 助手 (30205918)
|
Keywords | 対訳文章デ-タ / 翻訳 / 対照言語研究 / 英語 / 日本語 |
Research Abstract |
(1)対訳文章としては,Scientific American(雑誌)の5冊分,英語単語にして約10万語,その日本語訳テキストの約30万文字を対象とし,英語OCR,日本語OCRによるテキストデ-タの計算機入力を行った。 (2)このテキストデ-タの計算機内でのファイルシステムを作成し,英語と日本語との対応が取りやすいよう工夫した。 (3)日本語デ-タについては,単語単位への分割を行うことが必要なので,日本語形態素解析のシステムをSUNワ-クステ-ション上に作成した。これは他へ移植可能となっている。 (4)日本語テキストの形態素解析のシステムをうまく働かせるためには,単語辞書をうまく用意する必要があるので,ユ-ザがテキストの分野に応じて形態素文法を定義することのできる辞書システムを作った。 (5)英語文章とその翻訳の日本語文章との文単位の対応づけの予備実験を行った。その対応を計算機で自動的に行わせた結果,(i)日本語文章の1パラグラフに対して英語文章の2〜3パラグラフが対応する場合がある程度存在し,英語の1パラグラフに対して日本語の2〜3パラグラフが対応する場合は少ないこと,(ii)英語の1文が日本語の2〜4文に対応する場合と,逆に日本語の1文が英語の2〜4文に対応する場合とが,それぞれ同程度に生じるという結果が得られた。 この結果の妥当性を人手でチェックしたところ,自動対応の精度がそれほど良くないことが判明した。その原因は,短い文の場合に,英文と日本語文との対応を誤りやすいということにあり,これは1文中の英語の語群と日本語の語群との類似性係数の計算式が語数の少ないときに良くないというところにある。次年度はこれを抜本的に改良して良い結果を得るように,現在検討中である。
|
Research Products
(3 results)
-
[Publications] 妙木 裕,松本 裕治,長尾 真: "汎用日本語辞書および形態素解析システム" 情報処理学会第42回全国大会(平成3年前期). 3ー17. (1991)
-
[Publications] 妙木 裕: "利用者による文法定義可能な形態素解析システムの作成" 平成2年度京都大学工学部電気工学第二学科卒業論文. (1991)
-
[Publications] 村尾 浩也: "日英対照テキスト間の文の対応づけに関する研究" 平成2年度京都大学工学部電気工学第二学科卒業論文. (1991)