研究課題/領域番号 |
15K00451
|
研究機関 | 九州大学 |
研究代表者 |
伊東 栄典 九州大学, 情報基盤研究開発センター, 准教授 (90294991)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | コンテンツ / 多様性 / 情報エントロピー / 類似度 |
研究実績の概要 |
H27年度はニコニコ動画・小説家になろう・学術論文についての,データ収集を行うことと,多様性動向を定量化する計画である。 データ収集について述べる。ニコニコ動画については,国立情報学研究所が提供する動画データを利用している。「小説家になろう」が提供するWeb APIを用いて全小説のメタデータを収集した。2015年12月時点で232,448件の小節のメタデータを収集できた。学術論文については,Scopusのサイトから「bigdata」と「e-Learning」をキーワードに含む学術論文のメタデータを収集した。 多様性の定量化については,まず,単語の情報エントロピー(bit/word)を用いる方法と,コサイン類似度のの総和を用いる方法を適用した。その結果,情報エントロピーについては顕著な結果を得られず,良い指標ではないことが分かった。文書の単語ベクトルを用いて,文書間のコサイン類似度を数値化できる。各月のコンテンツのメタデータ群について,コンテンツ間の全組み合わせでコサイン類似度を計算し,その総和を計算した。その結果,ニコニコ動画および小説家になろうでは,類似度の総和が上昇した。つまり,コンテンツ間の類似度が上がっており,コンテンツの多様性が減少していることを示せた。一方,今回学術論文データでは,類似度の総和でも多様性の減少は見られなかった。 次に,LDA (Latent Dirichlet Allocation)を援用し,文書群のトピック数推定を適用した。適用したのは学術論文集合のみである。その結果,論文数が減少すると潜在トピック数も減少することを示した。 これらの研究成果はH27年度後半に得られたもので,国内の研究会(査読なし)でしか発表していない。今後,国際会議やジャーナル誌などで発表する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画に記載してた,ニコニコ動画・小説家になろう・学術論文についての,データ収集は問題なく実現できている。今後の継続的なデータ収集も問題無く実現できている。小説家になろうのWeb APIを用いた,分散データ収集クローラーを作成している。学術論文データについては,ScopusのWeb APIを用いて学術論文のメタデータを収集するプログラムも作成した。 また,集めたデータを整形するプログラム群も作成している。ニコニコ動画はJSON形式,「小説家になろう」はYAML形式,Scopusの学術論文はXML形式であるため,それぞれの形式に合わせた整形プログラムを作成した。ニコニコ動画および「小説家になろう」は日本語のデータであるため,形態素解析のためのMeCabを用いて,単語を抽出するツールも開発している。 多様性の定量化による,多様性動向の把握もおおまかには実現している。文書を,単語による文書ベクトルで表現し,そのベクトル間のコサイン類似度を計算する手法で,Web上の利用者投稿型コンテンツが多様性を減少させている状況を数値として定量的に示すことができた。
|
今後の研究の推進方策 |
ベクトル間のコサイン類似度を計算する手法で,Web上の利用者投稿型コンテンツが多様性を減少させている状況を数値として定量的に示すことができた。多様性が減少していることは,どこかに偏りが出ていることに繋がる。H27年度の研究では,どの分野に偏っているのかまでは示せていない。H28年度にクラスタリングや,トピックモデルを適用し,分野の偏りを明示的に示したいと考えいる。 また,当初の計画どおり,H28年度は利用者のコンテンツ選択モデルを検討する。CGMサイトでは,人気上位のコンテンツは閲覧数が益々増える一方,下位のコンテンツはほとんど閲覧されない。現実世界の図書館や書店では多数のコンテンツを一覧できるのに対し,Webコンテンツは一覧できるコンテンツ数が少ない。研究の第一段階は,各コンテンツの閲覧回数分布の調査である。既にニコニコ動画の閲覧回数分布は対数正規分布であることを調査している。他のCGMコンテンツでも対数正規分布になるのか,それとも指数分布や冪分布であるのかを調査する。次に,閲覧回数分布に合う,利用者のコンテンツ選択モデルを考える予定である。
|
次年度使用額が生じた理由 |
H27年度まで,大学入試センターで「情報関係基礎」の試験問題作成の用務を引き受けたていた。その用務日程との重なりで,アクセプトされた国際会議の研究発表ができず,使用予定であった旅費を使う事ができなかった。
|
次年度使用額の使用計画 |
昨年度使えなかった旅費も含め,今年度の研究発表回数を増やす。国内会議だけでなく国際会議での研究発表の回数も増加する。 本研究では大量のデータを扱う。ある時点のデータは貴重である。貴重なデータの紛失を防ぐために様々なサーバ機器,ストレージ機器にデータを分散保存している。研究室で使う主なデータ蓄積用サーバ機が老朽化しているためサーバ機の更新を行う。サーバ機やストレージ機の価格は安くなっているため,二台購入してバックアップ体制を構築する。
|