• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

多言語Webテキストからの知識マイニング関する研究

研究課題

研究課題/領域番号 19024014
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 二宮 崇  東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔  東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助教 (10401316)
研究期間 (年度) 2007 – 2008
研究課題ステータス 完了 (2008年度)
配分額 *注記
10,200千円 (直接経費: 10,200千円)
2008年度: 5,100千円 (直接経費: 5,100千円)
2007年度: 5,100千円 (直接経費: 5,100千円)
キーワード多言語 / WWW / 機械学習 / 知識 / マイニング / スパム / 曖昧性解消 / テキスト / ベイズ統計 / ブログ / 自然言語処理
研究概要

知識マイニングアルゴリズムの開発 : 多言語テキストコーパスから有用な情報抽出を行うための知識マイニングアルゴリズムとして、複数トピックを併せ持つテキストにおいてトピックを潜在変数とした単語の分類を行う統計的機械学習アルゴリズムを、階層的ディリクレ過程を基礎にした数理モデルによって開発した。これによってテキストにおける潜在トピックとそのトピックに対応する単語集合という知識を自動抽出できるアルゴリズムが明らかになった。
人名の参照曖昧性解消 : Webテキスト処理において重要な応用である同性同名の人物の検索結果を実世界の異なる人物を記述するページごとにクラスタリングする参照曖昧性解消システムを開発した。これは、教師なし機械学習によるため、精度、高速性の両面から検討し、Web検索エンジンで人名検索を行った結果において同性同名の人物を参照するページを実世界において異なる人物毎に5秒程度で高速にクラスタリングするシステムの開発し、その精度の実験的評価を行った結果、F値で0.8を得た。
スパムプログ分析 : Web上の重要な情報資源であるブログは常にスパムブログに悩まされており、排除のために大きなコストがかかっている。評判分析などの目的でブログの有効利用を図ることができる環境整備のツールとしてスパムブログの判定に役立つようなスパムブログの構造分析システムについて検討した。この結果、語彙にかかわる素性を分割してSVMを適用し、その結果をロジスティック回帰して組み合わせる方法によって、精度0.88を得た。

報告書

(2件)
  • 2008 実績報告書
  • 2007 実績報告書
  • 研究成果

    (12件)

すべて 2009 2008 2007

すべて 雑誌論文 (6件) (うち査読あり 6件) 学会発表 (6件)

  • [雑誌論文] 同義語辞書作成支援ツール2008

    • 著者名/発表者名
      寺田昭, 吉田稔, 中川裕志
    • 雑誌名

      自然言語処理 15-2

      ページ: 39-58

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] Person Name Disambiguation in Web Pages using Social Network, Compound Words and Latent Topics2008

    • 著者名/発表者名
      Shingo Ono, Issei Sato, Minoru Yoshida, Hiroshi Nakagawa
    • 雑誌名

      Springer LNAI : PAKDD2008 5012

      ページ: 260-271

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] Knowledge Discovery of Semantic Relationships between Words Using Non parametric Bavesian Graph Model2008

    • 著者名/発表者名
      Issei Sato, Minoru Yoshida, Hiroshi Nakagawa
    • 雑誌名

      ACM SIGKDD : Knowledge Discovery and Data Mining 14

      ページ: 587-595

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] 自動レファレンスサービスに向けて2008

    • 著者名/発表者名
      増田英孝, 清田陽司, 中川裕志
    • 雑誌名

      情報の科学と技術 58-7

      ページ: 347-352

    • 関連する報告書
      2008 実績報告書
    • 査読あり
  • [雑誌論文] 同義語辞書作成支援ツール2008

    • 著者名/発表者名
      寺田昭、吉田稔、中川裕志
    • 雑誌名

      自然言語処理 15(2)

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [雑誌論文] Gram-Free Synonym Extraction via Suffix Arrays2008

    • 著者名/発表者名
      Minoru Yoshida, Akira Terada, Hiroshi Nakagawa
    • 雑誌名

      Springer LNCS 4993

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [学会発表] 素性の分割利用による識別性能の向上とスプログへの応用2009

    • 著者名/発表者名
      有久亘, 佐藤一誠, 中川裕志
    • 学会等名
      第1回データ工学と情報マネジメントに関するフォーラム (電子情報通信学会, 情報処理学会)
    • 発表場所
      ヤマハリゾートつま恋
    • 年月日
      2009-03-08
    • 関連する報告書
      2008 実績報告書
  • [学会発表] クエリー拡張による特徴量抽出を用いたWeb検索における同姓同名問題解消2009

    • 著者名/発表者名
      池田雅紀, 小野真吾, 佐藤一誠, 吉田稔, 中川裕志
    • 学会等名
      第1回データ工学と情報マネジメントに関するフォーラム (電子情報通信学会, 情報処理学会)
    • 発表場所
      ヤマハリゾートつま恋
    • 年月日
      2009-03-08
    • 関連する報告書
      2008 実績報告書
  • [学会発表] 汎用シソーラス探索ライブラリの開発2008

    • 著者名/発表者名
      清田陽司
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 関連する報告書
      2007 実績報告書
  • [学会発表] スケーラブルで汎用的なプログ著者属性推定手法2007

    • 著者名/発表者名
      大倉 務, 清水 伸幸, 中川 裕志
    • 学会等名
      情報処理学会, 第181回自然言語処理(NL)研究会
    • 発表場所
      東京大学
    • 年月日
      2007-09-25
    • 関連する報告書
      2007 実績報告書
  • [学会発表] Dirichlet Process Unigram Mixture Mode1 に対するCollapsed Variational Bayes Inference の適用2007

    • 著者名/発表者名
      佐藤一誠, 中川裕志
    • 学会等名
      情報処理学会, 第64回数理モデル化と問題解決(MPS)研究会
    • 発表場所
      大阪大学
    • 年月日
      2007-05-17
    • 関連する報告書
      2007 実績報告書
  • [学会発表] 数値による新聞記事テキストマイニングシステムの提案2007

    • 著者名/発表者名
      杉浦隆博, 吉田 稔, 山田剛一, 増田英孝, 中川裕志
    • 学会等名
      第6回情報科学技術フォーラム(FIT2007)
    • 発表場所
      中京大学
    • 関連する報告書
      2007 実績報告書

URL: 

公開日: 2007-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi