• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1996 年度 研究成果報告書概要

科学論文コーパスとシソ-ラスを利用した英語論文作成支援システムの開発

研究課題

研究課題/領域番号 07558272
研究種目

基盤研究(A)

配分区分補助金
応募区分試験
研究分野 情報システム学(含情報図書館学)
研究機関岡山大学

研究代表者

柴坂 三根夫  岡山大学, 資源生物科学研究所 (60226165)

研究分担者 桜井 直樹  広島大学, 総合科学部, 教授 (90136010)
神阪 盛一郎  大阪市立大学, 理学部, 教授 (60047214)
野口 ジュディー津多江  武庫川女子大学, 薬学部, 教授
増田 芳雄  帝塚山短期大学, 教授 (60046836)
田中 歩  京都大学, 理学部, 講師 (10197402)
NOGUCHI Judy T.  MUKAGAWA WOMEN UNIV.Faculty of Pharmacology, Professor
研究期間 (年度) 1995 – 1996
キーワード英語 / 論文 / コーパス / シソ-ラス / インターネット / データベース
研究概要

本研究は、日本人研究者が英語で論文を著述する際の労力を軽減するために、論文英語コーパスから適切な例文を得られるソフトウェアを開発し、インターネットを介して全国の研究者が利用できるシステムを実現することを目的とした。
コーパス採集の対象研究分野は課題申請時には植物生理学分野を想定していたが、技術的問題と研究期間を考慮し、生命科学分野の「Journal of Biochemistry」誌の270巻の15号から50号全文を収録した。全語数は18,673,200語と目的を達成することができ、単語種数は158,331語であり、予測通り、重要な単語のほとんど全てを含んだコーパスを作ることができた。これは、世界有数の規模を持つコーパスの一つであるだけでなく、実用的利用に直ちに応用できるものであることに大きな意義を持ち、本研究の成果である。
本研究で作成したシソ-ラスは一般的なものでなく、科学分野で必要な概念及び独特な概念を中心に、全く新たに作ったものである。今回構築したコーパスにおいて、出現頻度50以上の単語をシソ-ラスに収録した。言い方を替えると、本シソ-ラスは40万語からなる文に一回だけ使用される程度の単語も含んでいる。収録単語数は14,136語であり、これらの単語はコーパス全体の96%を占めていた。この中から固有名詞を除いた約5000語を概念に応じて分類した。このシソ-ラスは生命科学分野の論文で使用される基本単語は全て網羅し、論文に出現しなかった(すなわち、論文での使用は不適当な)単語を含んでいない点で独創的なものである。しかし、分類群・検索キ-として採用する概念の妥当性・利便性等関しては今後に課題を残している。
ユーザーインタフェイスはシステムの実用化にとって最も重要な部分の一つである。本システムは、利用者が一般的に使用しているパーソナルコンピュータを用いて、ワードプロセッサーと同一画面に存在し、検索・参照・複写が容易できる環境を提供するために、wwwブラウザをクライアントとするシステムを採用した。これによって、インターネットを介し、多くの研究者が容易に本システムを利用することを可能するばかりでなく、サーバー側の管理はユーザー管理に煩わされることないので、管理者にとっても容易なシステムとなった。本システムは使用コーパスの著作権の問題をまだ解決していないので、公開には至っていないが、速やかに公開に移行できるよう努力している。

URL: 

公開日: 1999-03-09  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi