本研究の目的は重大事件ニュースがPOSデータに与える影響を測定することである。まず、「重大事件の定義」を行う必要がある。ある年、例えば2001年の3つ程度の新聞1面(朝・夕刊)の見出しの単語頻出度を調べ、その上位10件をその年の重大事件と定義した。ただし、特定の目的で設定されている見出し、例えば朝日新聞の1面コラムの「天声人語」や「素粒子」の記事などはほぼ毎日出現するので、それらの単語は単語頻出の対象から除外した。さらに、複数年のPOSデータがあれば、その重大事件ニュースの順序をつけることができる。 具体的な分析例として重大事件の1つに着目し、その事件のニュースがPOSデータに与える影響を測定することが本研究の目的であるため、新聞紙上でその「重大事件のキーワード」の有・無の状態から回帰モデルなどの説明変数データ(インディケータ変数)を生成する必要がある。「重大事件のキーワード」に関して、「重大事件の定義」と同様にコラムは対象から除外し、その新聞全ての記事(朝・夕刊)から作成とした。例えば、BSE問題を取り扱う場合、キーワードとして"狂牛病"か"BSE"とした。一般的には3つ程度のキーワードを取り扱う予定である。 BSE問題のキーワードは、朝日新聞社のサイトの「聞蔵IIビジュアル」により朝日新聞の「デジタル記事データ」として取得した。「聞蔵IIビジュアル」では検索モードは詳細検索で、検索キーワードとして"狂牛病"か"BSE"のどちらかを見出しか本文に含むものとし、期間は全期間、本紙、発行社は東京と設定した。記事データは記事番号、日付、朝刊/夕刊、見出し/本文、テキストの5項目を使用した。(※「国内初の狂牛病」記事掲載は2001年9月11日) 頻度分析などを行って「デジタル記事データ」から情報を抽出するために、テキストマイニングツールであるText Mining Studioを使用した。入力データはCSV形式で、テキスト属性として読み込んだ。
|