研究概要 |
商品やサービスなど, 指定されたトピックに関連する個人の経験の記述をWeb文書集合から収集し, 述語項構造に基づく表現形式に構造化するとともに, 事態タイプ(ポジティブ/ネガティブな出来事・状態, 入手・利用等の行為など)や事実性情報(当該事態の時間情報とそれに対する話者態度)といった意味情報を解析する経験マイニングを開発した. 20年度の具体的成果は次の4点である. (1)評価極性知識獲得の大規模実験 : 事態タイプのうち, とくに「遅刻する, 炎症が治まる, 錆が出る」など, 評価極性を持つ出来事に関する知識の獲得に注力し, 大規模なWeb文書コーパスからこれを獲得する実験を行った. その結果, コーパスのサイズを大きくすると, 獲得できる知識の精度, カバレッジともに劇的に向上に, 最終的に1.6億文のコーパスから75以上のカバレッジを85以上の精度で獲得できることが確かめられた. (2)事実性解析モデルの洗練 : 事実性解析については, 2007年度の成果をベースに, 事実性タグ体系の見直しと訓練データの拡張を行った. また, 文中で隣接する事態表現の事実性の間に依存関係があることに着目し, これをFactorial CRFでモデル化することによって解析精度を向上させることができた. (3)公開デモサイト「みんなの経験」の開発 : 以上の成果を利用し, 文書集合から実際に経験情報を抽出し, データペース化するシステムを開発するとともに, これを最近1年半分のプログ記事(約1億5千万記事)に適用し, 約5千万件の経験情報からなる経験データベースを構築した. このデータベースは, 今年度新たに開発した公開デモサイト「みんなの経験」で検索できるようになっている. 同サイトは, プログデータの利用契約の締結に時間を要したが, 2008年12月上旬に無制限一般公開できる運びになっている. (4)民間への技術移転 : 大手Webポータルサイト「@nifty」を運営するニフティ株式会社と連携し, 同社のサービス業務に経験マイニングの技術を導入する準備を進めた.
|