• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

インターネットを利用した英語データベースの構築とその活用法に関する研究

Research Project

Project/Area Number 15652029
Research InstitutionUniversity of Tsukuba

Principal Investigator

鈴木 英一  筑波大学, 大学院・人文社会科学研究科, 教授 (30004071)

Keywords英語 / 言語データベース / インターネット / e-mail service / ニュース配信サービス / オンライン・ニュース / 英語メディアのweb page / 言語データ検索
Research Abstract

本研究2年目の平成16年度には,初年度の研究を踏まえながら,(1)良質な英語データを収集することの可能なサイトの検討,(2)インターネットニュースやインターネット・ウェブページから英語の文のデータを抽出する方法の検討,(3)抽出した英語の文をデータベースとして加工する方法の検討といったことを中心に研究を行った.
良質な英語データの収集可能なサイトについては,初年度に引き続き,多様な面から検討した結果,質量ともにアメリカとイギリスのテレビ放映会社と新聞社のサイトのニュース・ウェブページとインターネットニュースが最も優れていることが明らかになり,英国ではBBC World Service, Times On Line, The Guardian, The Observerなどのサイト,米国ではABC, CBS News, CNN, MSNBC, USA Today, The Boston Globe, The Washington Post, The Wall Street Journal, Los Angeles Times, San Francisco Chronicleなどのサイトからインターネットニュースの配信を受けるとともに,ニュース・ウェブページをダウンロードして英語データの抽出を試みた.
インターネットの配信ニュース・メールとニュース・ウェブページから英語データを得るためには二つの課題があり,一つはウェブページをダウンロードする方法であり,もう一つはニュース・メールとニュース・ウェブページから英語テキスト部分を取り出す方法である.ウェブページのダウンロードに関しては自動巡回機能もついた「Download & Search Bee」とか「PageDown」や「WeBoX」,「NewsGlue」,「紙copi」,「DSダウンローダー」,「NewsTool」などのソフトウェアがあり,htmlファイルからテキストファイルへの変換に関しては,「HtoX32」や「なんでもテキスト屋さん」などのソフトウェアがあり,これらのソフトウェアを用いて英語データを得るための効果的な方法を検討した.
htmlファイルからテキストファイルに変換することはかなり効果的に行うことができるが,そのようなテキストファイルにはテキスト本体だけでなく英語データベースには不要な内容もかなり含まれるので,不要な部分を削除する方法を今後検討する必要がある.また,htmlファイルをテキストファイルに変換することなくhtmlファイルを直接検索対象にして必要なデータを収集する方法も検討する必要がある.

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi