• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

多言語Webテキストからの知識マイニング関する研究

Research Project

Project/Area Number 19024014
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  The University of Tokyo, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 二宮 崇  東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔  東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助教 (10401316)
Keywords多言語 / WWW / 機械学習 / 知識 / マイニング / ベイズ統計 / ブログ / 自然言語処理
Research Abstract

(1)特定の話題に関する多言語テキスト集合として日英韓中の4ケ国語からブログを収集し分析した。また、この分析において用語抽出エンジン「言選Web」を利用した。その結果、韓国においては整形手術などの記事が多く、また日本では報道されていないような話題の記事が多数を発見された。
(2)PDMMアルゴリズム:テキストコーパスから有用な情報抽出を行うための知識マイニングアルゴリズムを開発した。まず、複数トピックを併せ持つテキストの分類を行う統計的機械学習アルゴリズムを、ディリクレ分布を基礎にした数理モデルによって開発した。ここで開発したのはトピックが既知に場合であり、ひとつの文書に複数のトピックがディリクレ分布で混合するモデルである。このディリクレ分布を変分ベイズ法で推定するアルゴリズムを開発し、MEDELINEコーパスに対してMeSHタームをトピックと見立てて分布を推定する評価を行い、既存の方法を上回るF値を得た。
(3)Collapsed変分ベイズ法;ユニグラム混合をディリクレ過程で推定するモデルにCollapsed変分ベイズ法を適用するアルゴリズムを開発した。
(4)特定分野のテキストコーパスから専門用語の同義語を自動抽出するシステムを構築し、実験的に評価した。

  • Research Products

    (6 results)

All 2008 2007

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results)

  • [Journal Article] 同義語辞書作成支援ツール2008

    • Author(s)
      寺田昭、吉田稔、中川裕志
    • Journal Title

      自然言語処理 15(2)

    • Peer Reviewed
  • [Journal Article] Gram-Free Synonym Extraction via Suffix Arrays2008

    • Author(s)
      Minoru Yoshida, Akira Terada, Hiroshi Nakagawa
    • Journal Title

      Springer LNCS 4993

    • Peer Reviewed
  • [Presentation] 汎用シソーラス探索ライブラリの開発2008

    • Author(s)
      清田陽司
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      20080318-21
  • [Presentation] 数値による新聞記事テキストマイニングシステムの提案2007

    • Author(s)
      杉浦隆博, 吉田 稔, 山田剛一, 増田英孝, 中川裕志
    • Organizer
      第6回情報科学技術フォーラム(FIT2007)
    • Place of Presentation
      中京大学
    • Year and Date
      20070905-07
  • [Presentation] スケーラブルで汎用的なプログ著者属性推定手法2007

    • Author(s)
      大倉 務, 清水 伸幸, 中川 裕志
    • Organizer
      情報処理学会, 第181回自然言語処理(NL)研究会
    • Place of Presentation
      東京大学
    • Year and Date
      2007-09-25
  • [Presentation] Dirichlet Process Unigram Mixture Mode1 に対するCollapsed Variational Bayes Inference の適用2007

    • Author(s)
      佐藤一誠, 中川裕志
    • Organizer
      情報処理学会, 第64回数理モデル化と問題解決(MPS)研究会
    • Place of Presentation
      大阪大学
    • Year and Date
      2007-05-17

URL: 

Published: 2010-02-04   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi