2007 Fiscal Year Annual Research Report
ウェブページを対象にした主題だけではない多様な観点からの分類手法の検討
Project/Area Number |
19700232
|
Research Institution | Surugadai University |
Principal Investigator |
石田 栄美 Surugadai University, 文化情報学部, 准教授 (50364815)
|
Keywords | 生存分析 / ウェブページ / PDFファイル / 自動分類 |
Research Abstract |
本研究は、主題だけではなく、各テキストがもつ特徴を考慮した様々な観点からの分類を行うことが目的である。ウェブページに適した主題以外のカテゴリの設定を検討するためには、まずウェブページの実態調査を行う必要がある。 ウェブページの実態調査を行うためには、ウェブ上の膨大な情報からランダムにページを収集することが必要である。本年度は、効率的なクローリング手法を検討するために、ウェブページの生存調査を行った。とくに、ウェブ上の情報の中でも、PDFファイルに焦点をあてた。約2年前に収集していた584,973件のPDFファイル集合に対してクローラーによる生存調査を2007年12月から2008年1月にかけて行った。その結果、PDFファイルの生存率は55.2%であり、ウェブページとほぼ同様の結果であることがわかった。さらに、保存できなかったファイルに対して人手による追跡調査を行った。PDFファイルを論文と非論文に分けて調査したが、保存できなかった論文ファイル全てがウェブ上から消滅しているわけではなく、半数以上の55%について移動先URLを再発見することができた。非論文では24%であった。こ論文のPDFファイルはURLが変更されたとしても生存している割合が高いことがわかった。これらの結果から、ウェブ上の情報の中でも、内容によって、その生存状況が異なることいえる。 また、様々な観点からの分類を行うために、ウェブページの事例収集を行った。実際に収集した事例は、子ども用に作成されたウェブページである。サーチエンジンを用いて、子ども用に書かれているページを探し、そのページから、子ども用に書かれていると判断する基準は何か、一般向けに書かれたものとどのような違いがあるかなどを検討した。
|