研究課題/領域番号 |
23700113
|
研究機関 | 名古屋大学 |
研究代表者 |
鈴木 優 名古屋大学, 情報基盤センター, 特任助教 (40388111)
|
研究期間 (年度) |
2011-04-28 – 2015-03-31
|
キーワード | 情報の質 / 信頼度 / Wikipedia / 編集履歴 / リンク解析 |
研究概要 |
Web上のデータは,多様性の増大と情報量の爆発が起きている.これは主に,UGC(User Generated Contents) が容易に生成可能となったことに起因する.一般に UGC の情報は質の点で玉石混淆であるが,書籍のように十分推敲された情報と比較すると質が相対的に低下している点が問題である.本研究課題では,Web上で公開されている情報の外部要因,内部要因を用いることによって,爆発的に増大し続けているWeb上のデータから質の高い情報を抽出するための基盤技術として,外部要因,内部要因の分析,体系化技術,統合利活用技術について実用的な時間で計算可能であるアルゴリズムの開発を行っている.平成23年度は,情報の外部要因に基づく方法に絞って研究を行った.つまり,情報そのものに対する解析は行わずに,その情報に関する外部の情報だけを利用して情報の質を測定する方法を構築した.本年度は特に,Wikipedia における情報の編集履歴を用いた質の計測を行った.Wikipedia とは,不特定多数の著者によるWeb上の百科事典であるが,誰でも記述を行うことができるという性質上,高品質な記述と低品質な記述が混在しているという問題がある.Wikipedia 上において,質の高い情報は数多くの他の著者の編集において削除されることは少ない.一方,質の低い著者は他の著者によって削除される.この性質を利用することによって,情報の編集履歴から記述に対して質を算出した上で,著者の信頼度の算出を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実際にアルゴリズムを構築し,国際会議などにおいて成果を発表しているため.また,実際にシステムを構築しており,一般に公開されているため,おおむね順調に進展していると考えられる.
|
今後の研究の推進方策 |
平成24年度は平成23年度とは異なり,情報の内部要因に絞った情報の質の計測方法に関する研究を行う.Wikipedia において,質の高い情報には特徴的な記述が用いられていることが多い.たとえば,具体的な数値が記載されている場合や,難易度が比較的高いと考えられる単語が用いられている場合などである.本提案ではこのような Ad Hoc な仮定を用いて,質の高い情報に共通する部分を自動的に抽出し,質の高さが未知である記述に対して質の計測を行う手法を開発する.
|
次年度の研究費の使用計画 |
平成23年度における成果を国際会議において発表する際,執筆の遅れなどから平成24年度において行う必要が生じた.そのため,平成23年度における次年度使用額は,平成23年度における研究成果を発表するための旅費として利用する.研究そのものは遅れが生じていないため,予定通り国際会議への出席に関する費用,および論文誌への投稿料などとして平成24年度の研究費を利用する予定である.
|