2004 年度実績報告書

インターネットを利用した英語データベースの構築とその活用法に関する研究

研究課題

研究課題/領域番号	15652029
研究機関	筑波大学
研究代表者	鈴木英一筑波大学, 大学院・人文社会科学研究科, 教授 (30004071)
キーワード	英語 / 言語データベース / インターネット / e-mail service / ニュース配信サービス / オンライン・ニュース / 英語メディアのweb page / 言語データ検索
研究概要	本研究2年目の平成16年度には,初年度の研究を踏まえながら,(1)良質な英語データを収集することの可能なサイトの検討,(2)インターネットニュースやインターネット・ウェブページから英語の文のデータを抽出する方法の検討,(3)抽出した英語の文をデータベースとして加工する方法の検討といったことを中心に研究を行った. 良質な英語データの収集可能なサイトについては,初年度に引き続き,多様な面から検討した結果,質量ともにアメリカとイギリスのテレビ放映会社と新聞社のサイトのニュース・ウェブページとインターネットニュースが最も優れていることが明らかになり,英国ではBBC World Service, Times On Line, The Guardian, The Observerなどのサイト,米国ではABC, CBS News, CNN, MSNBC, USA Today, The Boston Globe, The Washington Post, The Wall Street Journal, Los Angeles Times, San Francisco Chronicleなどのサイトからインターネットニュースの配信を受けるとともに,ニュース・ウェブページをダウンロードして英語データの抽出を試みた. インターネットの配信ニュース・メールとニュース・ウェブページから英語データを得るためには二つの課題があり,一つはウェブページをダウンロードする方法であり,もう一つはニュース・メールとニュース・ウェブページから英語テキスト部分を取り出す方法である.ウェブページのダウンロードに関しては自動巡回機能もついた「Download & Search Bee」とか「PageDown」や「WeBoX」,「NewsGlue」,「紙copi」,「DSダウンローダー」,「NewsTool」などのソフトウェアがあり,htmlファイルからテキストファイルへの変換に関しては,「HtoX32」や「なんでもテキスト屋さん」などのソフトウェアがあり,これらのソフトウェアを用いて英語データを得るための効果的な方法を検討した. htmlファイルからテキストファイルに変換することはかなり効果的に行うことができるが,そのようなテキストファイルにはテキスト本体だけでなく英語データベースには不要な内容もかなり含まれるので,不要な部分を削除する方法を今後検討する必要がある.また,htmlファイルをテキストファイルに変換することなくhtmlファイルを直接検索対象にして必要なデータを収集する方法も検討する必要がある.