研究概要 |
平成19年度は英字新聞アーカイブを使用した大規模な調査に備え,データの選定,検索方法・データ取得の手順の決定,パイロットスタディを行った.まず,Times Digital Archive(以下TDA)と,TDAと比較可能なアーカイブや,TDAを補うデータを含むコーパスなどを選定し,それぞれのデータ形式,検索方法,結果表示などの違いを検討し,ダウンロード・保存・印刷の可否を考慮に入れた上で,どのような形でデータを整理・保存していくか決定した.アメリカで発行されている新聞アーカイブNew York TimesやLos Angels Timesは,カバーされている年代的にもデータ量的にもTDAの比較対象として適当であると判断し,また,英語大規模コーパスであるBritish National CorpusやWordbanks Onlineも,新聞アーカイブで不足しがちな日常的な語の用例を補うのに有効であるという結論に至った. パイロットスタディとしては,日本語からの借用語で,その中でも低頻度なものを取り上げ,検索・データのダウンロード・データの分析までの一連の流れを試行した.その結果,これまではどのコーパスでも検出不可能であった古い年代から現在に至るまでの語彙の語法・意味変化の様子を描き出すことができた.このパイロットスタディの結果は,この研究手法が次年度以降の大規模な検索へ応用される際に,有効に機能することを示す大変貴重な結果であると言える.さらに,各種データベース・コーパスからの検索結果が出そろった後に行う後処理をなるべく効率的に行えるように作業工程を改善した. 最後に,次年度以降に規模を拡大して検索を行う際の問題点を明確にし,時間のかかる単純作業についての対応や不要な検出データの処理についての対策を行い,検索の規模を拡大する準備を整えた.
|