• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

テキスト中の数値表現からの知識発見に関する研究

Research Project

Project/Area Number 22700137
Research InstitutionThe University of Tokyo

Principal Investigator

吉田 稔  東京大学, 情報基盤センター, 助教 (40361688)

Keywordsテキストマイニング / 接尾辞配列 / クラスタリング / 数値検索 / ディリクレ過程混合モデル
Research Abstract

本年度は、前年度に引き続き、テキスト中の数値表現を活用するための基盤技術および、それを応用したテキストマイニング技術の研究を行った。今年度は、主に、開発した基盤技術を応用した「大規模テキストデータからの数値文字列マイニング」を高速化するための研究に注力した。Wikipedia、東京大学Webページを対象とし、連接文字列取得システムを実用化するため、クエリの種類に応じた場合分け、特に、数値で開始するクエリについて、「数値のみの場合」と「それ以外の場合」に場合分けを行い、追加データ構造を用意することにより、従来よりも高速に連接文字列を取得することに成功した。これにより、様々な数値範囲クエリに対しリアルタイムに反応することが可能となった。また、新たに、新聞記事,企業の業務レポート等のテキストへの本手法の適用も試みた。
並行して、このような技術の応用先として、数値データを含むテキストに対するテキストマイニングの研究を行った。具体的には、機器異常診断に際して蓄積された業務レポートを対象とした。この業務レポート中のテキストは、機器に関する様々な数値情報を含み、これに対して、レポートのクラスタリングや要約を行う手法についての研究も行った。クラスタリングや要約に際しては、数値の単位情報等を特徴量として用いることを行った。
精度評価に関しては、同義語抽出の文脈情報として数値範囲を用いる手法に関して詳細な実験を行い、適切な閾値を用いて数値範囲を用いるか否かの切り替えを行うことにより、同義語抽出の精度を向上させることができることを確認した。

  • Research Products

    (4 results)

All 2012 2011

All Presentation (3 results) Book (1 results)

  • [Presentation] ニュース記事クラスタリングによる取引高予測の試み2012

    • Author(s)
      吉田稔, 中川裕志, 石田智也, 中嶋啓浩, 松井藤五郎, 和泉潔, 池田翔, 本多隆虎
    • Organizer
      人工知能学会第25回全国大会
    • Place of Presentation
      盛岡
    • Year and Date
      2012-06-02
  • [Presentation] ソーシャルメディアによる風邪流行の予測2012

    • Author(s)
      谷田和章, 荒牧英治, 佐藤一誠, 吉田稔, 中川裕志
    • Organizer
      言語処理学会 第18回年次大会
    • Place of Presentation
      広島
    • Year and Date
      2012-03-15
  • [Presentation] テキストマイニングによる機器異常診断支援の試み2012

    • Author(s)
      吉田稔, 中川裕志, 渋谷久恵, 前田俊二
    • Organizer
      第4回データ工学と情報マネジメントに関するフォーラム(DEIM 2012)
    • Place of Presentation
      神戸
    • Year and Date
      2012-03-04
  • [Book] Information Extraction from the Internet (Chapter 5 : On-demand Synonym Extraction Using Suffix Arrays)2011

    • Author(s)
      Minoru Yoshida, Hiroshi Nakagawa, Akira Terada
    • Total Pages
      256(15)
    • Publisher
      iConcept Press

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi