研究課題/領域番号 |
15K16092
|
研究機関 | 東京工業高等専門学校 |
研究代表者 |
山下 晃弘 東京工業高等専門学校, その他部局等, 助教 (80589838)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | SNS分析 / 炎上 / Twitter / 予測 / 感情語 / 個人プロファイル |
研究実績の概要 |
本研究では,炎上やネットスト―カー等の対策等に応用するため,SNS利用者の公開情報から,第三者が推測可能な情報を抽出する技術について研究開発を実施している. 平成27年度は,アマゾンウェブサビス(AWS)上へのクローラ・データ分析サーバの設置を行い,SNSクローラによるデータ収集と蓄積を開始している.また,得られたデータの基礎的な分析として,形態素解析による単語分を行い,その文章から単語の相関値などの特徴寮を抽出する作業を進めている. 今年度は特に,SNS利用者のプロファイル情報を推測する手段として,ランダムフォレストと呼ばれるアルゴリズムを用いて,予測する手法について検討し,実装を行った.実装する際のテストケースとして,年齢などの利用者のデモグラフィック属性に関する推定を検討したほか,SNS上での発言の中で特に感情に関する発言を抽出して,感情の極性とその時系列的な変化を推定するモデルを構築し,分析を試みた.本結果については,情報処理学会全国大会で報告する等,一定の結果を得られている. また,Twitterに投稿された内容が,どれほどの注目を集めるかを予測する手法についても検討を行った.調査の結果,炎上等特に注目を集める投稿は,画像付きの投稿が多いことから,画像付き投稿を分析する手法について検討を行った.具体的に,画像と本文を分け,それぞれニューラルネットワークと呼ばれる手法で特徴ベクトルを生成し,注目度を予測するモデルの確立と実験を行った.実験はTwitterから収集したデータを対象として行い,注目を集める度合いは,Tiwtter上のツイートに対するリツイートを予測することで精度を検証した.その結果,一定の精度でリツイート数を予測することに成功した.今年度の成果は,来年度に向けた研究の取り組みの基礎的な実験として大変意義ある成果を得られたと考えている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成27年度の取り組みとしては,大きく3つの取り組みについて実施した. 1つ目は,アマゾンウェブサービス(AWS)上へのデータ蓄積・分析環境の構築である.本研究は,常時SNS上からデータを収集し,蓄積・分析することが不可欠である.また,データ分析を行うためには,高速なデータ処理を行う計算機が必要であることから,クラウドサービスを利用することが性能的にもコスト的にも妥当であると判断し,AWS上にそのような環境を構築した.既にTwitter上から常時データ収集する体制を整え,AWS上で分析可能な体制を整えている. 2つ目は,SNSデータからの個人プロファイル抽出に関する基礎的な検討である.SNS上で炎上等が発生した場合を事前に分析した結果,コメント等に非難や中傷など感情的な用語を含む投稿が数多く寄せられている.そこで,Twitterに投稿される本文から,感情的な情報を抽出し,感情極性を推定するモデルと実証実験を実施した.具体的には,喜怒哀楽の4つの感情カテゴリーに対して,ある投稿がどのカテゴリーに属するかを推定するモデルである.本モデルには,近年自然言語解析の分野で注目されているWord2Vecというツールを用いて文章の特徴ベクトルを作成し,ランダムフォレストによって分類する実験を行った.結果としては,まだ改良の余地はあるものの,ある程度の精度で分類可能であることが明らかとなった. 3つ目は,SNS上への投稿内容がどの程度注目を集めやすいかを定量的かつ事前に予測する手法の検討である.SNS上への投稿は一度投稿されると削除することができないため予測は重要である.本研究ではニューラルネットワークの枠組みでTwitterのリツイート数を予測するモデルを構築し,実証実験を行った結果,こちらもある一定の精度で予測可能であることが確認できた.これらの成果は,国内会議で既に報告済みである.
|
今後の研究の推進方策 |
平成27年度に得られた成果をベースとしてより詳細な分析を試みる.データについては構築済みのシステムを使用して常時蓄積しているため,分析するために十分なデータが得られる予定である. まず,個人プロファイルの分析については,SNS上のデータから個人の年齢,性別,所属について推定する手法について検討を行う.炎上等の対策への応用を考え,特に高校生や大学生の年齢層を対象としたユーザを重点的に分析したいと考えている. またSNS上へ投稿するデータがどの程度注目を集めやすい内容であるか,をはんてするエンジンについても改良を行う.平成27年度は主にニューラルネットワークを用いた手法について検討したが,予測手法に関する関連研究をもう一度十分に調査し,SVNや決定着などの従来手法でどの程度の精度が達成でき,ニューラルネットワークと比較した際の精度の際などについて十分に検討を行う予定である. また,昨年度に引き続き学生へのアンケート調査も継続したいと考えている.平成26年度より,研究代表者が所属する学校の1年生向けに,SNSの利用実態に関するアンケート調査を実施しており,使用している端末やアプリケーション・サービスに係る情報を収集している.また,SNSを利用する際の意識調査についても併せて実施している.今年度はこれらのデータを詳細に分析し,SNSの利用実態についても明らかにしていきたいと考えている. また上記の研究課題について得られた成果については,国内外の学会等で発表し,論文誌への投稿も実施する.
|
次年度使用額が生じた理由 |
当初予算として,直接経費に1000,000円を計上していたが,その後クラウドサービスの利用料前倒し支払いに伴い,200,000円の前倒し支払い請求を行った. 間接経費を含めた,次年度使用額は111,197円であり,前倒し請求を行った額の範囲内であり,当初の計画通りである.
|
次年度使用額の使用計画 |
平成28年度は,当初の計画通り進める.ただし,クラウドサービスの利用料などは,状況に応じて変動があるが,現時点では計画通り進める予定である.
|