• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

多言語Webテキストからの知識マイニング関する研究

Research Project

Project/Area Number 19024014
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  The University of Tokyo, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 二宮 崇  東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔  東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助教 (10401316)
Project Period (FY) 2007 – 2008
Project Status Completed (Fiscal Year 2008)
Budget Amount *help
¥10,200,000 (Direct Cost: ¥10,200,000)
Fiscal Year 2008: ¥5,100,000 (Direct Cost: ¥5,100,000)
Fiscal Year 2007: ¥5,100,000 (Direct Cost: ¥5,100,000)
Keywords多言語 / WWW / 機械学習 / 知識 / マイニング / スパム / 曖昧性解消 / テキスト / ベイズ統計 / ブログ / 自然言語処理
Research Abstract

知識マイニングアルゴリズムの開発 : 多言語テキストコーパスから有用な情報抽出を行うための知識マイニングアルゴリズムとして、複数トピックを併せ持つテキストにおいてトピックを潜在変数とした単語の分類を行う統計的機械学習アルゴリズムを、階層的ディリクレ過程を基礎にした数理モデルによって開発した。これによってテキストにおける潜在トピックとそのトピックに対応する単語集合という知識を自動抽出できるアルゴリズムが明らかになった。
人名の参照曖昧性解消 : Webテキスト処理において重要な応用である同性同名の人物の検索結果を実世界の異なる人物を記述するページごとにクラスタリングする参照曖昧性解消システムを開発した。これは、教師なし機械学習によるため、精度、高速性の両面から検討し、Web検索エンジンで人名検索を行った結果において同性同名の人物を参照するページを実世界において異なる人物毎に5秒程度で高速にクラスタリングするシステムの開発し、その精度の実験的評価を行った結果、F値で0.8を得た。
スパムプログ分析 : Web上の重要な情報資源であるブログは常にスパムブログに悩まされており、排除のために大きなコストがかかっている。評判分析などの目的でブログの有効利用を図ることができる環境整備のツールとしてスパムブログの判定に役立つようなスパムブログの構造分析システムについて検討した。この結果、語彙にかかわる素性を分割してSVMを適用し、その結果をロジスティック回帰して組み合わせる方法によって、精度0.88を得た。

Report

(2 results)
  • 2008 Annual Research Report
  • 2007 Annual Research Report
  • Research Products

    (12 results)

All 2009 2008 2007

All Journal Article (6 results) (of which Peer Reviewed: 6 results) Presentation (6 results)

  • [Journal Article] 同義語辞書作成支援ツール2008

    • Author(s)
      寺田昭, 吉田稔, 中川裕志
    • Journal Title

      自然言語処理 15-2

      Pages: 39-58

    • Related Report
      2008 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Person Name Disambiguation in Web Pages using Social Network, Compound Words and Latent Topics2008

    • Author(s)
      Shingo Ono, Issei Sato, Minoru Yoshida, Hiroshi Nakagawa
    • Journal Title

      Springer LNAI : PAKDD2008 5012

      Pages: 260-271

    • Related Report
      2008 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Knowledge Discovery of Semantic Relationships between Words Using Non parametric Bavesian Graph Model2008

    • Author(s)
      Issei Sato, Minoru Yoshida, Hiroshi Nakagawa
    • Journal Title

      ACM SIGKDD : Knowledge Discovery and Data Mining 14

      Pages: 587-595

    • Related Report
      2008 Annual Research Report
    • Peer Reviewed
  • [Journal Article] 自動レファレンスサービスに向けて2008

    • Author(s)
      増田英孝, 清田陽司, 中川裕志
    • Journal Title

      情報の科学と技術 58-7

      Pages: 347-352

    • Related Report
      2008 Annual Research Report
    • Peer Reviewed
  • [Journal Article] 同義語辞書作成支援ツール2008

    • Author(s)
      寺田昭、吉田稔、中川裕志
    • Journal Title

      自然言語処理 15(2)

    • Related Report
      2007 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Gram-Free Synonym Extraction via Suffix Arrays2008

    • Author(s)
      Minoru Yoshida, Akira Terada, Hiroshi Nakagawa
    • Journal Title

      Springer LNCS 4993

    • Related Report
      2007 Annual Research Report
    • Peer Reviewed
  • [Presentation] 素性の分割利用による識別性能の向上とスプログへの応用2009

    • Author(s)
      有久亘, 佐藤一誠, 中川裕志
    • Organizer
      第1回データ工学と情報マネジメントに関するフォーラム (電子情報通信学会, 情報処理学会)
    • Place of Presentation
      ヤマハリゾートつま恋
    • Year and Date
      2009-03-08
    • Related Report
      2008 Annual Research Report
  • [Presentation] クエリー拡張による特徴量抽出を用いたWeb検索における同姓同名問題解消2009

    • Author(s)
      池田雅紀, 小野真吾, 佐藤一誠, 吉田稔, 中川裕志
    • Organizer
      第1回データ工学と情報マネジメントに関するフォーラム (電子情報通信学会, 情報処理学会)
    • Place of Presentation
      ヤマハリゾートつま恋
    • Year and Date
      2009-03-08
    • Related Report
      2008 Annual Research Report
  • [Presentation] 汎用シソーラス探索ライブラリの開発2008

    • Author(s)
      清田陽司
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Related Report
      2007 Annual Research Report
  • [Presentation] スケーラブルで汎用的なプログ著者属性推定手法2007

    • Author(s)
      大倉 務, 清水 伸幸, 中川 裕志
    • Organizer
      情報処理学会, 第181回自然言語処理(NL)研究会
    • Place of Presentation
      東京大学
    • Year and Date
      2007-09-25
    • Related Report
      2007 Annual Research Report
  • [Presentation] Dirichlet Process Unigram Mixture Mode1 に対するCollapsed Variational Bayes Inference の適用2007

    • Author(s)
      佐藤一誠, 中川裕志
    • Organizer
      情報処理学会, 第64回数理モデル化と問題解決(MPS)研究会
    • Place of Presentation
      大阪大学
    • Year and Date
      2007-05-17
    • Related Report
      2007 Annual Research Report
  • [Presentation] 数値による新聞記事テキストマイニングシステムの提案2007

    • Author(s)
      杉浦隆博, 吉田 稔, 山田剛一, 増田英孝, 中川裕志
    • Organizer
      第6回情報科学技術フォーラム(FIT2007)
    • Place of Presentation
      中京大学
    • Related Report
      2007 Annual Research Report

URL: 

Published: 2007-04-01   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi