研究課題/領域番号 |
04610278
|
研究機関 | 電気通信大学 |
研究代表者 |
酒井 邦秀 電気通信大学, 電気通信学部, 助教授 (80092609)
|
研究分担者 |
坪井 栄治郎 電気通信大学, 電気通信学部, 講師 (40180046)
西村 芳康 電気通信大学, 電気通信学部, 助教授 (60172706)
加藤 清方 電気通信大学, 電気通信学部, 助教授 (20185838)
|
キーワード | 全文データベース / 英語 / 映画 / 光学式読取装置 |
研究概要 |
文字・音声・映像を統合したデータベース構築の初年度である本年度は、まずコンピュータを中心としたシステムの構築から始めた。夏休み前になってようやく文字データ入力に関するハードウェアとソフトウェアが揃い、7月後半から光学式読み取り装置を利用したデータ入力が開始された。もっとも文字入力の手順の決定にはかなりの時間を要した。スキャニングの方法、最適パラメータの発見、読み取り精度の比較、スペリングチェック・ソフトウェアの比較など数多くの微調整点があったためである。 本補助費を謝金とする実際の入力作業は学生アルバイトの帰学を待って、9月から始まった。現在までに『タイム』誌、『ニューズウィーク』誌各10冊ずつ、小説5冊など、約7MBほどのデータ量になっている。文字データについては、取り敢えず両誌1年分、小説50冊を目標としており、来年度中に達成することを目標にしている。 音声・映像データに関しては、主に「英語字幕(クローズド・キャプション)入りレーザーディスク」を利用し、会話英語のデータ収集を試みた。レーザーディスクの購入、セリスの文字データ化に本補助金を使用している。現在までにレーザーディスク15枚分ほどの入力を終っているが、コンピュータの能力、レーザーディスクの収集枚数などの制約のために、明らかな結果の出るデータベースには至っていない。来年度はこの両面に力を入れ、会話英語の音声、映像を含めたデータベースを作り上げたいと考えている。 なお、少量ながら本データベースの研究への応用も始まっており、詳細については本補助金を別途受け、本研究の分担者でもある電気通信大学講師坪井栄治郎氏の研究実績報告書を参照されたい。
|