2012 Fiscal Year Annual Research Report
トピックの特性の多観点把握に基づく多言語ウェブテキストの言語間対照分析システム
Project/Area Number |
23300033
|
Research Institution | University of Tsukuba |
Principal Investigator |
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
|
Co-Investigator(Kenkyū-buntansha) |
吉岡 真治 北海道大学, 情報科学研究科, 准教授 (40290879)
乾 孝司 筑波大学, システム情報系, 助教 (60397031)
|
Project Period (FY) |
2011-04-01 – 2014-03-31
|
Keywords | ディレクトリ・情報検索 / ファセット検索 / 多言語処理 / トピック分析 / ニュース・ブログ |
Research Abstract |
本研究では,ウェブ上で収集可能な多言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間でどのような違いがあるのかを発見する過程を支援する.平成24年度は,以下の研究を行った. (1) 一つのトピック,あるいは,その中での詳細な関心事項に対する賛否・主観 平成23年度の研究項目(i) 一つのトピックの中での詳細な話題・関心事項の差異,(ii) 時系列特性,(iii) 実体験に関する情報の有無,と併用する形で,意見の分布特性について分析を行い,その推定手法について検討を行った.特に,トラブルに巻き込まれた実体験者等がその実体験を語る中で発信する意見・主観情報の事例を分析し,特徴的な言語表現を類型化した.具体的には,すでに起こった被害事象に対してその被害状況を説明する表現,および,被害に遭って生じた感情を説明する表現において特に重要な特徴があり,実体験と意見との相関の分析に有効であることを示した. (2) トピックに関する実体験の有無の分析 平成23年度の研究成果を受けて,平成24年度は質問・回答サイトを対象として,多様なトピックに渡って,実体験の中でも特に重要性の高いものであるトラブルの有無の分析を対象として,トピックの特性を把握する技術について研究を行った.まず,多様なトピックに渡って,トラブルの実体験に関する記述例を多数収集するために,種となる情報源として,国民生活センター(消費生活センター)におけるトラブル相談およびトラブル解決策指導事例のテキストを用いた.そして,一般の相談・回答サイト中のテキスト集合を対象として,相談・回答サイト中のトラブル実体験相談事例の候補を収集した.次に,(1)で分析した意見表現とトラブル実体験の有無との間の相関の分析を行い,トピックを横断して両者の相関を観測することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要で述べたとおり,(1) 「一つのトピック,あるいは,その中での詳細な関心事項に対する賛否・主観」の研究項目においては,平成23年度の研究項目(i) 一つのトピックの中での詳細な話題・関心事項の差異,(ii) 時系列特性,(iii) 実体験に関する情報の有無,と併用する形で,意見の分布特性について分析を行い,その推定手法について検討を行った.この研究に関連して,特に,「一つのトピック,あるいは,その中での詳細な関心事項のモデル化」の方式において,情報処理学会データベースシステム研究会より学生奨励賞を授与された.この研究においては,トピックの俯瞰的分布を表現するための数理モデルを実現するために,Wikipediaを知識源として,「分野トピックモデル」というトピックモデルの一種を開発した.これによって,分野の粒度での分布を表現し,通常のトピックモデルの上位概念として位置する数理モデルとして利用することが可能となった. また,(2) 「トピックに関する実体験の有無の分析」においては,質問・回答サイトを対象として,多様なトピックに渡って,実体験の中でも特に重要性の高いものであるトラブルの有無の分析を対象として,トピックの特性を把握する技術について研究を行った.特に,平成25年度の研究課題を実施するための予備調査として,日本語質問・回答サイトと並行して,中国語質問・回答サイトの調査・分析を開始するともに,日中間の文化間差異の有無についての分析を開始した.これまでのところ,一定の文化間差異が認められており,現在,これらの差異の定量的測定方式の検討を進めている.
|
Strategy for Future Research Activity |
平成25年度は,(i) 一つのトピックの中での詳細な話題・関心事項の差異.(ii) 国・文化・言語の間で関心が集中した時期が異なる,といった時系列特性の差異.(iii) ブログ・掲示板・レビューサイト等における書き手の実体験に関する記述の有無の差異.(iv) 一つのトピック,あるいは,その中での詳細な関心事項に対する賛否・主観の差異. の各観点において把握した単言語でのトピックの特性に対して,言語間の差異度を定式化する.翻訳資源としてWikipediaの項目間対訳関係リンク,既存の対訳辞書を用いる. (i)一つのトピックの中での詳細な話題・関心事項の差異,および,(iii)実体験の有無,に関しては,実体験の中でも特に重要性の高いものであるトラブルの有無,および,トラブル周辺での関心事項を対象として,言語間の対応・差異を定式化する.(ii)時系列特性については,バースト時期の類似性,トピックモデルの対訳関係を考慮して,言語間の対応・差異を定式化する.(iv)意見分布の言語間の対応・差異については,機械学習によって,実体験の有無を検出する際の単言語素性,および,主観抽出の際の単言語素性の間の言語間対応を学習させる. 次に,各観点についての差異を,観点(ファセット)型閲覧インタフェースの形式で分かり易く利用者に提示し,利用者が言語間の差異を発見する過程を支援する言語間対照分析システムとして構築する.最後に,被験者による評価実験を通して,差異発見支援の効率を検証する.
|
Research Products
(18 results)