2009 Fiscal Year Annual Research Report
文章表現とネットワーク構造の分析に基づく大規模CGMデータ分析手法の提案
Project/Area Number |
21500091
|
Research Institution | University of Tsukuba |
Principal Investigator |
佐藤 哲司 University of Tsukuba, 大学院・図書館情報メディア研究科, 教授 (70396117)
|
Co-Investigator(Kenkyū-buntansha) |
福原 知宏 東京大学, 人工物工学研究センター, 特任助教 (50436581)
宝珍 輝尚 京都工芸繊維大学, 工芸科学研究科, 教授 (00251984)
斉藤 和巳 静岡県立大学, 経営情報学部, 教授 (80379544)
|
Keywords | 情報検索 / ウェブ情報空間 / チャンク構造 / 文章評価 / ネットワーク分析 |
Research Abstract |
本研究は,記事の断片化が進むCGMへの適用を狙いとして,断片化された記事を集約し記事間の関連に基づく情報探索手法,記事を投稿した著者のネットワーク構造を分析する手法,ならびに,記事中に出現する語彙の親しみやすさ(親密度)や印象を用いた文章表現の特徴抽出法を確立することを目指している. (1)記事中に出現する語彙の共起関係から記事間のハイパーリンク構造を構築し,ナビゲーションのためのネットワークを構築する手法を提案した.社会ネットワーク分析で用いられる次数中心性や媒介中心性の尺度を用いた評価を行い,各記事からの出次数に制約を与えたネットワークが情報探索に有効な構造であることを示した. (2)質問回答サイトにおける回答者間をネットワーク構造で表現し,個々の回答者の役割と貢献度を定量的に算出するQARank, QAHitsアルゴリズムを提案した.これは,「優れた回答者が回答した質問でベストアンサーを取得した回答者はより優れている」とする考えに基づくもので,実運用された質問回答サイトのデータに適用し,参加者の役割や貢献度にカテゴリ間で特徴的な差異があることを明らかにした.また,複数のカテゴリにまたがって回答する参加者の存在やその傾向も定量的に明らかにした. (3)新聞記事および質問回答サイトの複数の記事を対象に,出現する語彙の親密度と印象度を評価し,これらの分布が記事の種別やカテゴリに依存していることを明らかにした.また,質問と回答の文章中に含まれる印象語が,ベストアンサーの推定に一定の効果があるとの示唆も得られた.
|
Research Products
(15 results)