研究概要 |
本研究では,ウェブ上で収集可能な多言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間でどのような違いがあるのかを発見する過程を支援する.平成23年度は,以下の研究を行った. (1)一つのトピックの中での詳細な話題・関心事項の推定 宇津呂,吉岡の研究成果においては,広義には同一のトピックについてのニュース記事・ブログ記事であっても,各言語での記述内容における詳細な話題・関心事項を正確に特定し,その微妙な差異を言語間で検出することが重要であるという知見が得られた.例えば,「臓器移植」の例では,日本語特有の現象として,ニュース・ブログにおいて,特定の話題「臓器移植法」への関心が高く,英語ブログ特有の現象として,「euthanasia(安楽死)」への関心が観測される.そのため,これらの詳細な話題・関心の差異の検出が重要な手がかりとなる.そこで,この研究項目では,多言語Wikipediaの一つのエントリの記述をトピックモデルとみなして,入力文書の記述内容・詳細な話題を特定する手法の研究を行った. (2)トピックの時系列特性の分析 時系列解析において著名なKleinbergのバースト解析モデルと研究項目(1)の多言語Wikipediaトピックモデルを併用して,話題のまとまり単位でのバースト解析を実現し,各言語特有の時系列特性をとらえる方式を実現した.従来のバースト解析では,個々のキーワードの時系列特性を独立に解析するために,話題のまとまりとしてのバーストを自動認識することが困難であった.一方,提案方式では,同一話題の文書集合を同定したうえで,話題単位でバーストを検出することを実現した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績の概要で述べたとおり,(1)Wikipediaを知識源とすることにより,一つのトピックの中での詳細な話題・関心事項の推定方式を実現した.また,この研究に対して,電子情報通信学会言語理解とコミュニケーション研究会より学生研究賞を授与された.また,(2)トピックの時系列特性の分析方式を実現した.当初の計画通り,以上の課題を達成することができたため,おおむね順調に進展している.
|
今後の研究の推進方策 |
平成24,および,25年度においても,当初の研究計画調書に掲げた計画通り,以下の(i)~(iv)の多様な観点における差異を自動で特定・類型化する技術の実現を推進する. (i)一つのトピックの中での詳細な話題・関心事項の差異. (ii)国・文化・言語の間で関心が集中した時期が異なる,といった時系列特性の差異. (iii)ブログ・掲示板・レビューサイト等における書き手の実体験に関する記述の有無の差異. (iv)一つのトピック,あるいは,その中での詳細な関心事項に対する賛否・主観の差異.
|