研究課題/領域番号 |
23653142
|
研究機関 | 関西学院大学 |
研究代表者 |
中野 康人 関西学院大学, 社会学部, 教授 (50319927)
|
キーワード | 計量テキスト分析 / テキストマイニング / 新聞 / データベース |
研究概要 |
【内容】平成24年度は,(1)読者投稿新聞記事を過去に遡ってデータ化する作業に集中した.結果として,2012年から1946年までの66年間にわたる記事が蓄積された.記事データは,投稿者の意見表明である記事内容だけでなく,投稿者の属性(氏名,住所,年齢,職業)と掲載年月日を含むものである.記事内容,投稿者の諸属性,掲載年月日を,それぞれ変数としたデータベースが構築されたことになる.(2)データベースの構築と並行して,昨年度に引き続き形態素解析ソフトの辞書を改良する作業も行った.投稿者の職業名称や頻出する投稿内容について,既存の辞書では抽出できない単語を拾い上げ,辞書登録の作業を繰り返した.(3)その上で,名前の分布や戦争に関する言説の変化等,いくつかのテーマで試験的な分析を実施した. 【意義】本研究の主目的は,読者投稿のデータベースを構築し,その内容分析を計量的に行うことにある.一般的には電子化されていない1980年代以前の記事を含む60年以上ものデータの蓄積は,世論の一側面を測るためのデータベースとして有意義なものとなる.投稿者の属性と投稿内容との関連をみることにより,既存の調査票調査の分析と同じように,社会現象にかかわる変数を抽出し,その意味や関連を分析することができるようになる.名前の変化や同一言説にかかわる関連語句の変化等,一般的な調査票調査ではアプローチし難い内容について,実証的に分析が可能となるデータができつつあるといえる.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1940年代迄遡った記事データベースを構築して計量テキスト分析を行う,という目的は達成されたといえる.しかし,計画では大手日刊新聞三紙(朝日,読売,毎日)のデータベースを構築する予定であったが,2012年度中に完成したのは,朝日新聞のみであった.これは,1940年代から1960年代にかけての新聞記事は画像の状態が悪く,判別し難い文字があるなど,当初予定したペースで入力がすすまなかったことが一因である.
|
今後の研究の推進方策 |
2013年度は,残りのデータベースを完成させるととともに,分析結果を学会報告や論文等で公表していく.
|
次年度の研究費の使用計画 |
上述のとおり,データベース構築のペースが遅かったため,データ入力のための人件費・謝金の繰り越しが発生している.2013年度初頭に集中的にデータベースの完成を急ぎ,人件費を執行する.そして,分析の成果を,国内外の学会で発表するために,そして新聞社への聴き取り調査をおこなうために,旅費を執行する予定である.
|