2013 Fiscal Year Annual Research Report
トピックの特性の多観点把握に基づく多言語ウェブテキストの言語間対照分析システム
Project/Area Number |
23300033
|
Research Institution | University of Tsukuba |
Principal Investigator |
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
|
Co-Investigator(Kenkyū-buntansha) |
吉岡 真治 北海道大学, 情報科学研究科, 准教授 (40290879)
乾 孝司 筑波大学, システム情報系, 助教 (60397031)
|
Project Period (FY) |
2011-04-01 – 2014-03-31
|
Keywords | ディレクトリ・情報検索 / ファセット検索 / 多言語処理 / トピック分析 / ニュース・ブログ |
Research Abstract |
本研究では,ウェブ上で収集可能な多言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間でどのような違いがあるのかを発見する過程を支援する方式について研究を行った.本研究では,以下の(i)~(iv)の多様な観点における差異に着目し,各観点における差異を発見する過程を支援する方式を実現した.(i) 一つのトピックの中での詳細な話題・関心事項の差異.(ii) 国・文化・言語の間の時系列特性の差異.(iii) 書き手の実体験に関する差異.(iv) 賛否・主観の差異.平成25年度は,以下の研究を行った. (1) 実体験の中でも特に重要性の高いものであるトラブルの有無,および,トラブル周辺での関心事項を対象として,言語間の対応・差異を分析した.具体的な分析対象として,日本語および中国語の質問・回答サイトを取り上げ,特定の話題に関連して,実体験の有無に関して,言語間でどのような差異が認められるかを分析する方式を実現した. (2) 時系列特性について,バースト時期の類似性,トピックモデルの対訳関係を考慮して,言語間の対応・差異を定式化した.具体的な分析対象として,日本語ニュースおよび中国語ニュースを取り上げ,時系列トピックモデルの推定,および,時系列トピック間の日中対応を同定する方式を実現することにより,言語間の差異度を測定した. (3) 特定の話題に関するコミュニティにおいて強い関心を持つブロガーを対象として,ブロガーの持つ関心事項・意見を日本語と中国語の間で比較・対象分析し,差異の発見を支援する方式を実現した.ここでは,日中両言語において,大規模にブロガーのブログ記事データを収集するとともに,両言語でトピックモデルを適用することにより,ブロガー・コミュニティを作成し,日中間でコミュニティ比較を行う方式を実現した.
|
Current Status of Research Progress |
Reason
25年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
25年度が最終年度であるため、記入しない。
|
Research Products
(16 results)
-
-
-
-
[Presentation] ウェブ検索者の情報要求観点の集約2014
Author(s)
小池 大地, 鄭 立儀, 今田 貴和, 守谷 一朗, 井上 祐輔, 宇津呂 武仁, 河田 容英, 神門 典子.
Organizer
言語処理学会第20回年次大会
Place of Presentation
北海道大学工学部(北海道)
Year and Date
20140318-20140318
-
-
-
-
-
-
-
-
-
-
-
-