2008 年度実績報告書

多言語Webテキストからの知識マイニング関する研究

研究課題

研究課題/領域番号	19024014
研究機関	東京大学
研究代表者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
研究分担者	二宮崇東京大学, 情報基盤センター, 講師 (20444094) 吉田稔東京大学, 情報基盤センター, 助教 (40361688) 清田陽司東京大学, 情報基盤センター, 助教 (10401316)
キーワード	多言語 / WWW / 機械学習 / 知識 / マイニング / スパム / 曖昧性解消 / テキスト
研究概要	知識マイニングアルゴリズムの開発 : 多言語テキストコーパスから有用な情報抽出を行うための知識マイニングアルゴリズムとして、複数トピックを併せ持つテキストにおいてトピックを潜在変数とした単語の分類を行う統計的機械学習アルゴリズムを、階層的ディリクレ過程を基礎にした数理モデルによって開発した。これによってテキストにおける潜在トピックとそのトピックに対応する単語集合という知識を自動抽出できるアルゴリズムが明らかになった。人名の参照曖昧性解消 : Webテキスト処理において重要な応用である同性同名の人物の検索結果を実世界の異なる人物を記述するページごとにクラスタリングする参照曖昧性解消システムを開発した。これは、教師なし機械学習によるため、精度、高速性の両面から検討し、Web検索エンジンで人名検索を行った結果において同性同名の人物を参照するページを実世界において異なる人物毎に5秒程度で高速にクラスタリングするシステムの開発し、その精度の実験的評価を行った結果、F値で0.8を得た。スパムプログ分析 : Web上の重要な情報資源であるブログは常にスパムブログに悩まされており、排除のために大きなコストがかかっている。評判分析などの目的でブログの有効利用を図ることができる環境整備のツールとしてスパムブログの判定に役立つようなスパムブログの構造分析システムについて検討した。この結果、語彙にかかわる素性を分割してSVMを適用し、その結果をロジスティック回帰して組み合わせる方法によって、精度0.88を得た。

研究成果
(6件)

すべて 2009 2008

すべて雑誌論文 (4件) (うち査読あり 4件) 学会発表 (2件)

[雑誌論文] 同義語辞書作成支援ツール2008
- 著者名/発表者名
  寺田昭, 吉田稔, 中川裕志
- 雑誌名
  
  自然言語処理 15-2
  
  ページ: 39-58
- 査読あり
[雑誌論文] Person Name Disambiguation in Web Pages using Social Network, Compound Words and Latent Topics2008
- 著者名/発表者名
  Shingo Ono, Issei Sato, Minoru Yoshida, Hiroshi Nakagawa
- 雑誌名
  
  Springer LNAI : PAKDD2008 5012
  
  ページ: 260-271
- 査読あり
[雑誌論文] Knowledge Discovery of Semantic Relationships between Words Using Non parametric Bavesian Graph Model2008
- 著者名/発表者名
  Issei Sato, Minoru Yoshida, Hiroshi Nakagawa
- 雑誌名
  
  ACM SIGKDD : Knowledge Discovery and Data Mining 14
  
  ページ: 587-595
- 査読あり
[雑誌論文] 自動レファレンスサービスに向けて2008
- 著者名/発表者名
  増田英孝, 清田陽司, 中川裕志
- 雑誌名
  
  情報の科学と技術 58-7
  
  ページ: 347-352
- 査読あり
[学会発表] 素性の分割利用による識別性能の向上とスプログへの応用2009
- 著者名/発表者名
  有久亘, 佐藤一誠, 中川裕志
- 学会等名
  第1回データ工学と情報マネジメントに関するフォーラム (電子情報通信学会, 情報処理学会)
- 発表場所
  ヤマハリゾートつま恋
- 年月日
  2009-03-08
[学会発表] クエリー拡張による特徴量抽出を用いたWeb検索における同姓同名問題解消2009
- 著者名/発表者名
  池田雅紀, 小野真吾, 佐藤一誠, 吉田稔, 中川裕志
- 学会等名
  第1回データ工学と情報マネジメントに関するフォーラム (電子情報通信学会, 情報処理学会)
- 発表場所
  ヤマハリゾートつま恋
- 年月日
  2009-03-08

2008 年度 実績報告書

多言語Webテキストからの知識マイニング関する研究

研究代表者

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

研究成果

[雑誌論文] 同義語辞書作成支援ツール2008

著者名/発表者名

雑誌名

[雑誌論文] Person Name Disambiguation in Web Pages using Social Network, Compound Words and Latent Topics2008

著者名/発表者名

雑誌名

[雑誌論文] Knowledge Discovery of Semantic Relationships between Words Using Non parametric Bavesian Graph Model2008

著者名/発表者名

雑誌名

[雑誌論文] 自動レファレンスサービスに向けて2008

著者名/発表者名

雑誌名

[学会発表] 素性の分割利用による識別性能の向上とスプログへの応用2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] クエリー拡張による特徴量抽出を用いたWeb検索における同姓同名問題解消2009

著者名/発表者名

学会等名

発表場所

年月日

2008 年度実績報告書

中川裕志東京大学, 情報基盤センター, 教授 (20134893)