当該研究は、インターネット上における古典電子化資料の語彙と機能語の組み合わせでテキストを分析、並びに目的語との分類などの基本的な情報分析、さらに分類機能を整備して検索インデックスを構築し、情報検索機能の自然言語処理技術に応用させ、情報検索サービスを提供することを目的としたものである。補助事業初年度である今年度は、次の過程について重点的に研究・分析作業を行った。 [サンプルHPの分析] インターネット検索エンジンgoogleを使用し、「源氏物語」について約600余の異なるサイトのインデックスと、URLのリストを作成し、HP取得ツール(wget)を使ってページの収集作業を行った。約100サイトのページについて、古典語彙集大成との照合を行い、適合率の高いサイトについて、マッチした専門用語とその機能語の抽出作業を行った。さらに、それぞれの分類について、出現が想定される機能語を整理した。 また、上記の約100サイトのページについて、構築した古典語彙集大成と機能語を使って、各サイトを分析し、分類を試みた。さらに、その結果を使って手作業での分類との差の分析を行った。
|