1996 Fiscal Year Annual Research Report
科学論文コーパスとシソ-ラスを利用した英語論文作成支援システムの開発
Project/Area Number |
07558272
|
Research Institution | OKAYAMA University |
Principal Investigator |
柴坂 三根夫 岡山大学, 資源生物科学研究所, 助手 (60226165)
|
Co-Investigator(Kenkyū-buntansha) |
桜井 直樹 広島大学, 総合科学部, 教授 (90136010)
神阪 盛一郎 大阪市立大学, 理学部, 教授 (60047214)
野口 ジュディー 津多江 武庫川女子大, 薬学部, 教授
増田 芳雄 帝塚山短期大学, 教授 (60046836)
田中 歩 京都大学, 理学部, 講師 (10197402)
|
Keywords | 英語 / 論文 / コーパス / シソ-ラス / インターネット / データベース |
Research Abstract |
本研究は、日本人研究者が英語で論文を著述する際の労力を軽減するために、論文英語コーパスから適切な例文を得られるソフトウェアを開発し、インターネットを介して全国の研究者が利用できるシステムを実現することを目的とした。本システムは、実用的利用を目指しているため、コーパス(言語データベース)の採集対象及び規模の選定は重要な課題であった。研究論文で用いられる用語が、その研究対象に強く依存するばかりでなく、論文の言い回しも研究分野によって異なっている。また、我々の一部が既に保有していた100万語からなるコーパスでは、いくつかの重要単語が欠落または極小数例しか含まれない等の欠点が判明していた。そこで、実用化を目指すためには、少なくとも10倍規模、すなわち1000万語コーパスの構築が不可欠であると判断した。「Journal of Biochemistry」誌の270巻の15号から50号全文を収録した。含まれる論文数は3,193本であり、全語数は18,673,200語と予定を遥かに越えることができた。含まれる語を単語に分類すると158,331語であり、重要な単語のほとんど全てを含んでいると思われる。このコーパスは、おそらく世界最大のコーパスの一つであろう。本研究で作成したシソ-ラスは一般的なものではなく、科学分野で必要な概念、科学分野に独特な懸念を中心に、全く新たに作ったものである。今回構築したコーパスにおいて、出現頻度50以上の単語をシソ-ラスに収録した。コーパス内で50回使用されたということは、約40万語に一回使用されたことにより、これらの単語は約60編の論文に一つ見つかる程度のものである。頻度50以上の単語数は14,136語であり、これらの単語の出現総数は17,921,285回であり、全体の96%を占めていた。この中から固有名詞を除いた約5000語を概念に応じて分類した。単語の分類は従来の言語学者が行ってきたものを全く参考にせず、科学論文の論理構造を反映するように行った。このシソ-ラスは生命科学分野の論文で使用される基本単語は全て網羅し、論文に出現しなかった(すなわち、論文に使えない)単語を含んでいない点で独創的なものと言える。しかし、まだ分類単位が大きいため更に細かく分類して行く必要があると思われる。また、分類はできても、そのグループに適切な概念で命名できなかった分類群が多数残っている。これらは今後の課題である。ユーザーインタフェイスはシステムの実用化にとって最も重要な部分の一つである。本システムは、利用者がコンピュータ上で論文を書きながら並行利用するのが一般的な使用法であると考えられる。すなわち、一般的に個人用に使用されているパーソナルコンピュータのウィンドウズやマッキントッシュを用いて、ワードプロセッサーと同一画面に存在し、両方の作業ウィンドウ間でカットアンドペーストなどを用いて容易に複写できる環境が望ましい。そこでwwwブラウザをクライアントとするシステムを採用した。
|