研究課題/領域番号 |
15K00314
|
研究機関 | 千葉商科大学 |
研究代表者 |
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
研究分担者 |
白田 由香利 学習院大学, 経済学部, 教授 (30337901)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
チャクラボルティ バサビ 岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | ビックデータ解析 / ソーシャルメディア解析 / ツイッター解析 / 特徴抽出 / 2部グラフ解析 / 時系列話題抽出 / 東日本大震災 |
研究実績の概要 |
東日本大震災後21日間に投稿された2億件強のTwitterデータ(データサイズ 約15G)を対象として,発言者の役割を反映した時系列話題解析手法の開発とその評価を行っている. 昨年度に実施した1)実験環境整備,2)発言者の役割推定アルゴリズム開発,3)時系列話題解析の結果に基づき,今年度は2)発言者の役割推定アルゴリズムの改良及び,3)時系列話題解析の詳細評価を行った.2)の発言者の役割推定アルゴリズム開発においては,Twitterにおける発言者と発言ワードの関係を2部グラフで表現し,2部グラフの形状を保ったままクラスタリングを行うことでより精度の高い話題抽出が可能となる手法を提案し,実データへの適用を行った.提案手法によって,発言者グループを抽出でき,発言者の役割を反映し精度の高い話題抽出の実現を目指している. 3)の時系列話題解析においては,提案手法を実データに適用し,評価を行った.評価はCoherenceというクラスタリングの質を評価するパラメタを用いている.既存手法(ベースラインとしてGibbsLDA)と比較し,Coherenceの高いクラスター(話題)が抽出出来ていることが確認できている.対象データを東日本大震災だけでなく熊本地震にまで広げており,提案手法の汎用性を確認するとともに,災害後のTwitter上の話題発生のモデル化を目指している. 研究成果を広く公開するために,学会への論文投稿(ICDMW2016,DH2016,など)や各種Public Lecture(インドネシア大学等)を行っている.また人工知能分野,ビッグデータ解析分野の研究者との交流も積極的に行い,合宿などを通じて,最新の手法・知見の獲得にも務めている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成28年度は,平成27年度に開発した発言者の役割推定アルゴリズムの改良及び,時系列話題解析の詳細評価を行う予定であったが,ほぼ順調に進展したと考える.発言者の役割推定アルゴリズムにおいては,Twitterにおける発言者と発言ワードの関係を2部グラフで表現し,2部グラフの形状を保ったままクラスタリングを行える手法を提案し,それを用いた話題抽出手法の開発を行った.2部グラフの特徴を活かしながらクラスタリングする手法は,世界的に見てもまだ確立されておらず,オリジナリティの高い効果的な手法であると考えている.実際にその手法を2億件強のTwitterデータ(実データ)に適用することで,提案手法の効果を示すことが出来ている.こうした話題抽出の評価は常に困難が伴うが,今年度は,Coherenceというクラスタリングの質を評価するパラメタを用いて,その評価を行っている.Coherenceパラメタを用いて各クラスターの質を数値で表現することで,定量的な評価も実施できている.さらに定性的な評価も実施しており,手法の有効性や改善すべき点などの検討が可能となっている.さらに東日本大震災のみならず熊本地震のTwitterデータまで解析を広げており,手法の汎用性や災害後のTwitter上の話題のモデル化にも着手し始めている.
|
今後の研究の推進方策 |
平成29年度は,発言者の役割推定アルゴリズムのさらなる評価と改良を行い,時系列話題解析手法の確立を目指す 2)発言者の役割推定アルゴリズムの改良と評価:2部グラフの形状を活かした話題抽出手法の確立を行い,この分野での最先端の手法として広く世に広めていくことを目指す.提案手法を東日本大震災のみならず熊本地震にも適用し,各種評価パラメタを活用した定量評価のみならず,解析結果(話題)が実際の社会の状況を表現できているかの訂正評価も行う. 3)時系列話題解析手法の確立:2)の結果にもとづいて,時系列話題解析手法を開発・改良する.時間軸上で話題がどのように推移していったかをより精度良く表現できる手法の実現をめざす. 4)災害発生後の時系列話題推移のモデル:TwitterのようなSNSにおいて,発言者と発言ワードの関係を考慮することで,より精度の高い話題が抽出でき,それらが時系列上でどのように推移(生成,分割,消失)していくかのライフサイクルモデルの生成を目指す. 5)結果の公開:研究成果は学会発表のみならず,公開講演等,Webサイト等で,積極的に公開していく.
|
次年度使用額が生じた理由 |
千葉商科大学・学習院大学から学内の研究費を獲得することができ,それを優先して使用した.さらに,2017年度は本科研の最終年度となり,研究成果発信環境整備に予算をより割り当てたいため,一部の予算を来年度に移行することとした.
|
次年度使用額の使用計画 |
2016年度未使用の予算は,2017年度,研究成果発信環境整備に利用する.
|