研究課題/領域番号 |
06801055
|
研究機関 | 電気通信大学 |
研究代表者 |
酒井 邦秀 電気通信大学, 電気通信学部, 助教授 (80092609)
|
研究分担者 |
坪井 栄治郎 学芸大学, 助教授 (40180046)
西村 芳康 学芸大学, 助教授 (60172706)
加藤 清方 学芸大学, 助教授 (20185838)
|
キーワード | 全文データベース / マルチメディア / 検索ソフトウェア |
研究概要 |
本年度は4、5年度に同じ課題名で交付を受けた研究のあとを継いで、CD-ROMを使った英文データの収集、レーザディスクを使った映像データと音声データの収集、ならびに英文データの検索ソフトウェアの開発を行った。 CD-ROMによる英文データは、今年度London Times紙、Guardian紙、TIME誌などのジャーナリズムのデータ約1億語分、また文学の古典約1千万語分が集まった。 レーザーディスクによる映像・音声データの収集については、今年度新たに70種を購入した。すべて英語字幕情報の入ったもので、現在コンピュータを使用して口語英語データベースを構築しているところである。(本年度補助金による謝金を使用) 以上2項目は4、5年度の作業をそのまま引き継いだものであるが、文字データの収集がある程度の量になったのに伴い、本年度は検索ソフトウェアの開発を本格的に行った。4、5年度の予備的研究によって、検索ソフトウェアは次の条件を満たしている必要があると思われた。 1.検索ソフトウェアの基盤となるプラットフォームが広く使われているものであること。(できるだけ多くの研究者に利用してもらうため) 2.検索の結果作られるファイルはできるだけ小さなものであること。 (検索結果を出力すると何百キロバイトにもなることが珍しくない。普通に出力していたのではそれだけで記憶装置の容量がたちまちなくなってしまう。) 3.検索には正規表現を使うことで能率を高めること。 以上の規格を基に、プラットフォームにはMS-DOSを用い、市販のVZエディタ-のマクロ機能を利用した検索ソフトウェアが一応の完成を見た。現在はこの検索ソフトウェアを実際に利用しながら、改善をめざしているところである。
|