1993 Fiscal Year Annual Research Report
文字・映像・音声データベースを利用した語学教育研究システム
Project/Area Number |
04610278
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
酒井 邦秀 電気通信大学, 電気通信学部, 助教授 (80092609)
|
Co-Investigator(Kenkyū-buntansha) |
坪井 栄治郎 電気通信大学, 電気通信学部, 助教授 (40180046)
西村 芳康 電気通信大学, 電気通信学部, 助教授 (60172706)
加藤 清方 電気通信大学, 電気通信学部, 助教授 (20185838)
|
Keywords | 全文データベース / マルチメディア / 正規表現検索 |
Research Abstract |
上記課題の下に行う本年度の作業は、「データ入力」と「データ検索プログラム作成」の2つで、交付された補助金は全額謝金に使用することになっていた。しかしながら、過去1年間のコンピュータ技術の進歩拡大により、多少の変更が必要となった。 データ入力のうち文字データについては、当初光学式読み取り装置を使って作業をする予定で、謝金はその作業に対して支払われるはずであったが、英米で新聞や雑誌の記事を全文データにする速度は予想をはるかに上回り、大量のデータがCD-ROMの形で販売されたため新聞雑誌については光学式読み取り装置による入力を止め、文字データ入力作業謝金に充てる予定だった金額でそうしたCD-ROMを購入した。科学研究費補助金以外で購入したものも含めて、現在TIME誌4年分(1989年から1992年まで)、Newsweek誌1年分(1992年)、The Times誌4年分(1989年から1992年まで)など、およそ1GBを越えるデータが集まっている。 データ入力のうち、会話データの文字化はアメリカ合衆国で売られている英語字幕信号入りレーザーディスクと、日本で発売され始めた英語字幕信号入りレーザーディスクの両方を使って収集した。どちらもレーザーディスクの購入に時間がかかり、現在レーザーディスク3枚(5時間分)の会話データしか集められていない。このデータ入力について、本補助金を謝金として利用した。 データ検索プログラム作成作業は現在IBM PC互換機上での簡単な検索ができるようになっている。このプログラムの作成に本補助金を謝金として支出した。現材ある検索プログラムでは、まだキーワードの数が限られているので、正規表現を用いてさらに複雑な検索を行えるようにすることを目指して、現在もプログラム作成作業中である。また、そうした複雑な検索をコンピュータに詳しくない英語の先生でも容易に行えるようにするために適切なインターフェイスも考案中である。 また、マッキントッシュ上でも大量のデータから検索できるようにするためにさまざまな工夫をしているが、今までのところ成功していない。大量のデータをできるだけ加工せずに、生のデータのまま検索できることが全文データベースの大きな魅力であるため、何とか小さく分けずに(構造化せずに)直接検索できないものかと思案しているところである。
|