研究課題/領域番号 |
15K00451
|
研究機関 | 九州大学 |
研究代表者 |
伊東 栄典 九州大学, 情報基盤研究開発センター, 准教授 (90294991)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 利用者投稿型コンテンツ / CGM / 多様性 / クラスタリング / 統計分析 / 対数正規分布 / 回帰分析 |
研究実績の概要 |
H28年度,CGM (Consumer Generated Media)の「ニコニコ動画」と「小説家になろう」の2つを対象に,多様性動向の定量化,コンテンツ閲覧数の統計解析,コンテンツ選択モデルの検討を行った。 CGMコンテンツのメタデータ収集は継続的に行えている。H28年度に得た新データに対し,提案済のコサイン類似度の総和(SumCos値)を算出した。タグ(キーワード)のみ,タグと題名,タグ・題名・説明文の三つの場合について,SumCos値を月毎に算出した。ニコニコ動画および小説家になろうでSumCos値の上昇傾向を観測でき,メタデータの類似度上昇,すなわちコンテンツ多様性減少を定量的に示せた。 次にコンテンツの偏り把握のため,クラスタリングの適用を試みた。doc2vecでベクトル化したものを,X-Means手法でクラスタ生成する予定であった。doc2vecによるベクトル化は出来たでがX-Meansの実装が完成していない(前段階のK-meansはできたが)。 利用者のコンテンツ選択モデル検討のため,ニコニコ動画の閲覧数を統計分析した。全体の閲覧回数分布は対数正規分布であることに対し,ジャンル毎の場合について調査した。その結果,二つ以上の対数正規分布を足し合わせた分布になるジャンルが在ることが分かった。動画の閲覧回数を目的,その他の様々な値(マイリスト数,コメント数,リンク数など)を説明変数とする線形回帰分析を適用した。動画集合全体では,線形回帰分析で閲覧数を予想することはできなかった。 人口や病気の罹患者の時間推移モデルである「SIRモデル」を用いた動画閲覧モデルについても検討した。動画は他者からの推薦で閲覧する事が多いため,SIRは適していると想定した。結果が対数正規分布になる幾何ブラウン運動と,SIRを組み合わせた数理解析を試みた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初計画では,(a) データ収集,(b)多様性動向指標の提案および多様性動向把握,(c)利用者コンテンツ選択モデル確立,の3つを,ニコニコ動画・小説家になろう・学術論文ついて行なう予定であった。H27年度の研究で,学術論文は充分に多様であることが分かり,調査対象から外した。 (a)のデータ収集については,継続的なメタデータ収集は実現できている。小説家になろうのWeb APIを用いた分散データ収集クローラーを Python 言語で再作成した。データ整形のプログラム群も作成している。 (b)については,提案したコサイン類似度の総和(SumCos値)で多様性動向を定量化することで,多様性動向を把握できている。多様性減少による偏りを分析するため,クラスタリングを試みた。doc2vecによるコンテンツのベクトル化を適用し,X-Meansでクラスタ数自動推定して調査する予定であった。doc2vecのベクトル化は出来たものの,X-Meansはプログラムが完成せず(前段階のK-meansはできたが)完了していない。H29年度に再実験する予定である。 (c)の利用者のコンテンツ選択モデルについては,閲覧回数を目的関数とする回帰分析と,何らかの数理モデルによる閲覧数推定を試みた。H28年度にニコニコ動画の全コンテンツを対象にした線形回帰分析を適用した所,得た結果は決定係数の値がかなり低いため,有効な分析になっていない。 人口や病気の罹患者の時間推移モデルである「SIRモデル」を用いた動画閲覧モデルについても検討した。動画は他者からの推薦で閲覧する事が多いため,SIRは適していると想定した。結果が対数正規分布になる幾何ブラウン運動と,SIRを組み合わせた数理解析を試みた。数理的に解析しただけで,実データとの比較ま未完了である。
|
今後の研究の推進方策 |
H29年度も(a) データ収集,(b)多様性動向指標の提案および多様性動向把握,(c)利用者コンテンツ選択モデル確立,の3つを,ニコニコ動画・小説家になろうのデータで行なう。 (a)のデータ収集は,既に作成したプログラムを稼働することで継続して行なう。 (b)の多様性動向については,新規収集データでの再計算によるデータ更新を行なう。多様性減少は偏りにつながるため,コンテンツの偏り具合の分析をX-Meansによるクラスタリングで再調査する。その際,コンテンツのベクトル化も良いものにする。単語を説明する文章を「ニコニコ大百科」から集めて解析することで,doc2vecのベクトル化の精度のの精度上げる。また,ジャンル毎や投稿時期毎にクラスタリングすることで,部分集合毎の違いを詳細に調べる。 (c)の利用者のコンテンツ選択モデルを確立のために,閲覧回数を目的関数とする回帰分析と,何らかの数理モデルによる閲覧数推定を考えている。回帰分析では,線形回帰分析,非線形回帰分析,および深層学習による回帰分析を行なう。これらを,ジャンル毎や投稿時期毎に分けて回帰分析を適用することで,部分集合毎の違いを詳細に調べる。深層学習では,動画のサムネイル画像も利用する。深層学習では,大量の計算を行なうため,新たにGPUを備えたサーバを購入す る。計算資源が足りない場合,スーパーコンピュータの利用も検討する。 既存の成果およびH29年度の成果を発表する。
|
次年度使用額が生じた理由 |
予定していた国際会議での研究発表が少なかったため,予算の繰越が発生した。
|
次年度使用額の使用計画 |
繰り越した金額で,人工知能技術・深層学習(ディープラーニング)を行なうための,GPU付きのPCサーバを購入する。ニコニコ動画を対象に,動画の再生回数を目的関数する回帰分析を行なう。説明変数として,コメント数,マイリスト登録数,入リンク数,出リンク数などを用いる。深層学習による回帰分析では,サムネイル画像も用いる。
|