研究分担者 |
河本 健 広島大学, 医歯薬学総合研究科, 講師 (50224861)
金子 周司 京都大学, 薬学研究科, 助教授 (60177516)
鵜川 義弘 宮城教育大学, 教育学部, 助教授 (20232803)
竹内 浩昭 静岡大学, 理学部, 助教授 (90216854)
竹腰 正隆 東海大学, 医学部, 講師 (80221373)
藤田 信之 国立遺伝学研究所, 分子遺伝研究系, 助手 (90173434)
|
研究概要 |
本研究の目的は,欧米で公開されている生命科学に関連する主要な学術論文の英文を基本資料とする英文コーパスを作成し,用法・用例・類義語・共起表現を抽出することで,科学英文作成支援システムを構築することであった。研究初年度に当たる平成14年度は,英文コーパスの構築および用語の分析作業を主として行った。コーパス構築の為に,HighWire Press Projectで公開されている論文誌から著作権使用の了解を得る数種類の学術誌を中心にして,英語を母国語とすると思われる著者による最新の原著論文の本文(総語数約3千万語)を元データとして蓄積した。基本資料を元に語彙の計量分析を行い,英語論文で使われる中で着目したい頻出2千語を抽出した。現有するライフサイエンス用語データベースと比較検討するために,これらの単語の前後の単語を抽出するプログラムを作成して,コンコーダンスおよび用例集のプロトタイプの作成をした。また,語彙についての計量的な分析結果を有効利用するために,語の共起関係を明解に表示するユーザフレンドリーなシステムを開発し、WWWサーバシステムとして一般に公開するに至った。 平成15年度には,英語論文作成支援機能を更に向上させるために,共起表現の検索システムを汎用化し,あらかじめ精選され登録された語・語句以外にも,任意の語・語句について共起表現の結果を表示することを実現した。更に,検索語の直前直後に出現する語の頻度情報を統計的に表示することで,活用辞典の特性を上回るシステムを構築し,公開することに成功した。 本プロジェクトは,我が国において初めて,大規模な生命科学関連英文に特化した英文コーパスを作成し,共起表現に関わる分析データをWWWで無償公開し,英文作成を支援するという極めて独創的な試みである
|