研究課題/領域番号 |
23500299
|
研究機関 | 九州大学 |
研究代表者 |
伊東 栄典 九州大学, 情報基盤研究開発センター, 准教授 (90294991)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 情報検索 / コンテンツ / 利用者参加型 / 集合知 |
研究概要 |
爆発的に増加する利用者参加型メディア内のコンテンツから,求めるコンテンツを探すには,コンテンツの品質(面白さ)評価尺度と,コンテンツのカテゴリ分類が必要である。この二つを,視聴者・閲覧者・読者がコンテンツへ付与するコメントやタグなどの情報を解析した集合知解析で実現する。2011年度は,ニコニコ動画上の動画,特に音楽分野の動画を対象に研究した。(a)データ収集:「音楽」タグのついた動画の題名,作者,投稿日,説明文,タグ,および視聴者の投稿コメントを収集した。(b)品質評価尺度の提案:動画の「笑える」度合いの評価尺度の提案し,定量的に評価した。本評価尺度について,上位の検索結果にハズレが少ないことと,求めるコンテンツへ辿り着くまでの検索回数が少ないことを定量的に示した。(c)カテゴリ分類手法の提案と評価:閲覧者から付与されたタグを頻度解析および共起解析して階層化する手法を提案した。階層関係から,類似タグ・上位タグ・下位タグを提示でき,それが類似コンテンツの検索に役立つ事を示した。その他,将来の処理対象データの大規模化に備え,Hadoop環境を用いたデータ解析の予備調査を行った。これによりケタ違いに解析が速くなることを示せ,次年度以降は大規模データを詳細解析できることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では,H23年度に以下の(a),(b),(c)を予定していた。それぞれについて1年目として充分な結果が出ている。H24年度から大規模データの解析を予定している。そのためにHadoop環境を整備し,かつ現有データでの予備調査が行えた。(a) 集合知データ収集(動画投稿サービスを対象):全体の約10%である,ニコニコ動画内の音楽動画について,集合知解析に用いるメタデータ(タイトル,作者,投稿日時,説明文,タグ)および,視聴者からのコメントを収集出来た。(b) 品質評価尺度の提案と評価:既存手法よりも性能の良い検索ランキング手法を提案できた。ただし調査した感情は「笑い」だけである。しかし本手法は「怒り」や「興奮」などの激しい感情にういては適応可能と予想している。(c) カテゴリ分類手法の提案と評価:タグを頻度解析および共起解析して階層化する手法を提案した。タグ間の階層化関係を抽出する処理はデータが大規模化した場合に問題になる。Hadoop環境を使った予備調査の結果から,大規模並列分散処理を行うことで大規模データにたいするタグ階層化計算も可能になると予想している。
|
今後の研究の推進方策 |
本課題はH23~H25年度の3年計画である。H24年度は,継続してニコニコ動画を対象としたコンテンツ検索手法を検討する。この際,全動画を対象として動画メタデータおよび視聴者コメントを収集する。また計画を前倒しして,他のメディアとしてオンライン小説を対象にし,メタデータおよび読者コメントの収集を行う。ニコニコ動画の全動画は2012年4月現在700万件以上である。この膨大なデータの収集は,約10台程度のPCサーバを用いて,並列に取得する。そのために,既存PCと新たに購入するノートPCを用いる。700万件の動画メタデータおよびコメントは大規模で,その解析も重い処理になる。整備したHadoop環境を活用し,並列処理による大規模データ解析を行う。今まではコンテンツと視聴者コメントの2者関係(2部グラフ)だけを解析していた。新たな手法として,人(視聴者または作者),コンテンツ,コメントおよびタグの3者関係(3部グラフ)を用いた解析手法を検討する。3部グラフ解析による検索手法は計算量が大きくなるため,コンテンツ数の少ないオンライン小説を対象とする。
|
次年度の研究費の使用計画 |
物品の購入は予定どおりノート型PC(Apple Mac Book 1台を予定)のみ購入する。既存PCおよび購入PCを用いて,複数のPC上のプログラムで,メタデータおよびコメントデータの収集を行う。対象はニコニコ動画の全動画とする。また,新たに扱うオンライン小説についてもメタデータおよびコメントデータを収集する。物品費以外の研究費は,旅費に用いる。国内の研究会での成果発表を4回,国際会議での成果発表3回を予定している。必要に応じて,情報収集のために研究会等イベントに参加し,そのために旅費を用いる。
|