2007 Fiscal Year Annual Research Report
経験マイニング:Web文書からの個人の経験の抽出と分類
Project/Area Number |
19024057
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
乾 健太郎 Nara Institute of Science and Technology, 情報科学研究科, 准教授 (60272689)
|
Keywords | テキストマイニング / ブログ / 経験 / 自然言語処理 / 意味解析 / 情報抽出 / 事実性解析 / 評価極性 |
Research Abstract |
商品やサービスなど,様々な事物(トピック)に関る個人の経験を広くWeb文書集合から抽出し,データベース化する技術を開発する.具体的には,指定されたトピックに関連する個人の経験の記述をWeb文書集合から収集し,述語項構造に基づく表現形式に構造化するとともに,事態タイプ(ポジティブ/ネガティブな出来事・状態,入手・利用等の行為など)や事実性情報(当該事態の時間情報とそれに対する話者態度)といった意味情報を解析する。これにより,Web上に散在する膨大な数の個人の経験が意味的な索引とともにデータベース化され,〈トラブル〉や〈要望〉といった意味による柔軟な検索が可能になる.19年度は課題全体の設計を行うとともに,次の3点で成果を得た. (1)事実性解析:まず複数のトピックに関するブログ記事を人手で分析することによって,タスクの要件を洗い出し,テンス・アスペクトの一般化である時間情報とモダリティの一般化である態度情報の解析の組み合わせからなる課題を設計した。つぎに,約4千件の訓練事例を作成し,factorial CRFにより一定の精度で解ける見込みを得た. (2)事態タイプ分類:事態タイプの中核となる評価極性,とくに名詞の評価極性をコーパスから自動獲得する実験を行い,既存の方法を大幅に改善できることを示した. (3)応用システム:以上の成果を利用し,経験に基づくブロガー検索システムを開発した.このシステムは,特定の商品に関する人々の経験を〈興味あり〉〈買った〉〈満足〉などの経験クラスで検索し,結果をブロガー単位で表示する.例えば「iPod touchに興味を持っている人」,「実際に買った人」,「満足している人」を集めることができ,マーケティング等の情報源として有効活用できると考えている.
|
Research Products
(7 results)