経験マイニング : Web文書からの個人の経験の抽出と分類

研究課題番号:19024057

2008年度 研究実績報告書

代表者

    • 乾 健太郎
    • 研究者番号:60272689
    • 奈良先端科学技術大学院大学・情報科学研究科・准教授

研究課題基本情報

  • 研究期間

    2008年度〜2008年度

  • 研究分野

  • 審査区分

  • 研究種目

    特定領域研究

  • 研究機関

    奈良先端科学技術大学院大学

  • 配分額

    • 2007年度:3200千円 (直接経費:3200千円)
    • 2008年度:3200千円 (直接経費:3200千円)

研究概要

商品やサービスなど, 指定されたトピックに関連する個人の経験の記述をWeb文書集合から収集し, 述語項構造に基づく表現形式に構造化するとともに, 事態タイプ(ポジティブ/ネガティブな出来事・状態, 入手・利用等の行為など)や事実性情報(当該事態の時間情報とそれに対する話者態度)といった意味情報を解析する経験マイニングを開発した. 20年度の具体的成果は次の4点である.

(1)評価極性知識獲得の大規模実験 : 事態タイプのうち, とくに「遅刻する, 炎症が治まる, 錆が出る」など, 評価極性を持つ出来事に関する知識の獲得に注力し, 大規模なWeb文書コーパスからこれを獲得する実験を行った. その結果, コーパスのサイズを大きくすると, 獲得できる知識の精度, カバレッジともに劇的に向上に, 最終的に1.6億文のコーパスから75以上のカバレッジを85以上の精度で獲得できることが確かめられた.

(2)事実性解析モデルの洗練 : 事実性解析については, 2007年度の成果をベースに, 事実性タグ体系の見直しと訓練データの拡張を行った. また, 文中で隣接する事態表現の事実性の間に依存関係があることに着目し, これをFactorial CRFでモデル化することによって解析精度を向上させることができた.

(3)公開デモサイト「みんなの経験」の開発 : 以上の成果を利用し, 文書集合から実際に経験情報を抽出し, データペース化するシステムを開発するとともに, これを最近1年半分のプログ記事(約1億5千万記事)に適用し, 約5千万件の経験情報からなる経験データベースを構築した. このデータベースは, 今年度新たに開発した公開デモサイト「みんなの経験」で検索できるようになっている. 同サイトは, プログデータの利用契約の締結に時間を要したが, 2008年12月上旬に無制限一般公開できる運びになっている.

(4)民間への技術移転 : 大手Webポータルサイト「@nifty」を運営するニフティ株式会社と連携し, 同社のサービス業務に経験マイニングの技術を導入する準備を進めた.

発表文献

雑誌論文

  • Kentaro Inui: "Experience mining : Building a large-scale database of personal experiences and opinions from Web documents" Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence. 890-896 (2008), 1

  • Shuya Abe: "Two-phased event relation acquisition : coupling the relation-oriented andargument-oriented approaches" Proceedings of the 22nd International Conference on Computational Linguistics (COLING-2008). 1-8 (2008), 1,

  • 鳥澤健太郎: "キーワードサーチを超える情報爆発サーチ-自然言語処理で価値ある未知をマイニング-" 情報処理 49(8). 890-896 (2008), 0,

  • 乾健太郎: "言語情報間の含意・矛盾関係の認識" 月刊言語 2008年8月号. 30-37 (2008), 0,

学会発表

  • 阿部修也, 乾健太郎, 松本裕治: "2種類のアンカー情報と共起パターンの組み合わせによる事態間関係獲得" 情報処理学会自然言語処理研究会技術報告. (20080717). 函館

  • 佐尾ちとせ, 江口萌, 松吉俊, 乾健太郎: "日本語文のモダリティ・極性情報を捉えるために" 言語処理学会第15回年次大会発表論文集. (20090303). 鳥取

  • 阿部修也, 江口萌, 隅田飛鳥, 大崎梓, 乾健太郎: "みんなの経験 : プログから抽出したイベントおよびセンチメントのDB化" 言語処理学会第15回年次大会発表論文集. (20090303). 烏取

  • 乾健太郎: "言語処理から知に迫る-自然言語処理からの再挑戦-" 第23回社会的知能発生学研究会, 招待講演. (20080808). 奈良

  • Kentaro Inui: "Common semantic resources for textual statement extraction and organization" NSF Sponsored Symposium on Semantic Knowledge Discovery, Organization and Use, Invited talk. (20081115). ニューヨーク

このページのURI

http://kaken.nii.ac.jp/ja/p/19024057/2008/3/ja