研究概要 |
本研究2年目の平成16年度には,初年度の研究を踏まえながら,(1)良質な英語データを収集することの可能なサイトの検討,(2)インターネットニュースやインターネット・ウェブページから英語の文のデータを抽出する方法の検討,(3)抽出した英語の文をデータベースとして加工する方法の検討といったことを中心に研究を行った. 良質な英語データの収集可能なサイトについては,初年度に引き続き,多様な面から検討した結果,質量ともにアメリカとイギリスのテレビ放映会社と新聞社のサイトのニュース・ウェブページとインターネットニュースが最も優れていることが明らかになり,英国ではBBC World Service, Times On Line, The Guardian, The Observerなどのサイト,米国ではABC, CBS News, CNN, MSNBC, USA Today, The Boston Globe, The Washington Post, The Wall Street Journal, Los Angeles Times, San Francisco Chronicleなどのサイトからインターネットニュースの配信を受けるとともに,ニュース・ウェブページをダウンロードして英語データの抽出を試みた. インターネットの配信ニュース・メールとニュース・ウェブページから英語データを得るためには二つの課題があり,一つはウェブページをダウンロードする方法であり,もう一つはニュース・メールとニュース・ウェブページから英語テキスト部分を取り出す方法である.ウェブページのダウンロードに関しては自動巡回機能もついた「Download & Search Bee」とか「PageDown」や「WeBoX」,「NewsGlue」,「紙copi」,「DSダウンローダー」,「NewsTool」などのソフトウェアがあり,htmlファイルからテキストファイルへの変換に関しては,「HtoX32」や「なんでもテキスト屋さん」などのソフトウェアがあり,これらのソフトウェアを用いて英語データを得るための効果的な方法を検討した. htmlファイルからテキストファイルに変換することはかなり効果的に行うことができるが,そのようなテキストファイルにはテキスト本体だけでなく英語データベースには不要な内容もかなり含まれるので,不要な部分を削除する方法を今後検討する必要がある.また,htmlファイルをテキストファイルに変換することなくhtmlファイルを直接検索対象にして必要なデータを収集する方法も検討する必要がある.
|