• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Research-status Report

データ圧縮はテキストを要約できるか?

Research Project

Project/Area Number 23650074
Research InstitutionKyushu Institute of Technology

Principal Investigator

坂本 比呂志  九州工業大学, 大学院情報工学研究院, 准教授 (50315123)

Co-Investigator(Kenkyū-buntansha) 久保山 哲二  学習院大学, 計算機センター, 准教授 (80302660)
Project Period (FY) 2011-04-28 – 2014-03-31
Keywordsデータ圧縮 / マイニング / 簡潔データ構造 / パターン発見
Research Abstract

あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮を要約するための技術として発展させることで巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を発掘する.具体的には,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.テキストの洪水に立ち向かう技術として,キーワード検索によって網羅的に得られた情報を再構築し,それらが大まかに意味するものを端的に提示する高度な情報処理が必要である.このとき,一次的な検索結果全体をパターンとして再検索することで,情報のフィードバックが掛かり,データ間の深い関連性を見いだせると期待できる.そこで本研究ではデータ圧縮による情報の要約のための枠組みを提案し,その有用性を実証することで,データ圧縮に新しい価値を見いだそうとしている.また,本研究の成果を一般に広く周知するため,プログラムソースの公開と可視化ツールの作成・配布を計画している.(A) 大規模テキストを圧縮によって直接比較する手法の開発および(B) システムの実装と実世界データでの実証実験および情報発信が焦点である.このような目的に対して,今年度は,データを一度圧縮して,パターン同士を関連づける文法と呼ばれるデータ構造に変換し,頻出なパターンを高速に集計できるオンラインアルゴリズムを構築した.また,このアルゴリズムを用いて,実世界データに対する予備実験を行い,その性能が十分であることを確認した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

アルゴリズムの開発が順調に進んだため,次年度以降の予定であった実世界データへの応用にすでに取りかかれるようになった.

Strategy for Future Research Activity

昨年度は、研究開始までに発表された当該分野の関連研究について研究事例のレビューをすることになったため、当初予定していた研究費の支出を保留した。予定していた品目について、次年度に改めて研究計画に沿った品目に対して支出する。今後は,基本アルゴリズムの開発と共に,実世界データへの応用を平行して行う.近年のソーシャルネットワークの発達により,様々なデータが社会に氾濫しているため,どのような問題に取り組むべきかを検討するため,異分野の研究者とコミュニケーションを取りながら研究を進める.

Expenditure Plans for the Next FY Research Funding

これからは共同研究が重要となるため,研究費のほとんどを旅費に計上する計画である.開発は既存設備を利用可能である.また,その他として論文誌への投稿や英文校正のための費用等を計上する計画である.

  • Research Products

    (8 results)

All 2012 2011

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (5 results)

  • [Journal Article] Extracting research communities from bibliographic data2012

    • Author(s)
      Y.Nakamura, T.Horiike, T.Kuboyama, H.Sakamoto
    • Journal Title

      KES Journal

      Volume: 16 Pages: 25-34

    • DOI

      ISSN 1327-2314

    • Peer Reviewed
  • [Journal Article] Scalable Detection of Frequent Substrings by Grammar-Based Compression2011

    • Author(s)
      M.Nakahara, S.Maruyama, T.Kuboyama, H.Sakamoto
    • Journal Title

      DS2011

      Volume: LNCS6926 Pages: 236-246

    • DOI

      ISSN 0302-9743

    • Peer Reviewed
  • [Journal Article] ESP-Index: A Compressed Index Based on Edit-Sensitive Parsing2011

    • Author(s)
      S.Maruyama, M.Nakahara, N.Kishiue, H.Sakamoto
    • Journal Title

      SPIRE2011

      Volume: LNCS7024 Pages: 398-409

    • DOI

      ISSN 0302-9743

    • Peer Reviewed
  • [Presentation] 大規模ネットワークデータ分析のためのデータ圧縮ツール2012

    • Author(s)
      松本 美玲,山抱 由依,中原 昌哉,久保山 哲二,坂本 比呂志
    • Organizer
      第85回 SIG-FPAI研究会
    • Place of Presentation
      岐阜県
    • Year and Date
      2012年2月
  • [Presentation] An Online Algorithm for Lightweight Grammar-Based Compression2011

    • Author(s)
      S.Maruyama, T.Takeda, M.Nakahara, H.Sakamoto
    • Organizer
      CCP2011
    • Place of Presentation
      イタリア
    • Year and Date
      2011年6月
  • [Presentation] A Practical Random Access to Grammar-Based Compression2011

    • Author(s)
      S.Maruyama, M.Baba, H.Sakamoto, K.Sadakane, M.Yamashita
    • Organizer
      AAAC2011
    • Place of Presentation
      台湾
    • Year and Date
      2011年4月
  • [Presentation] An Online Algorithm for Lightweight Compression of Highly Repetitive Text2011

    • Author(s)
      S.Maruyama, M.Baba, H.Sakamoto, K.Sadakane, M.Yamashita
    • Organizer
      AAAC2011
    • Place of Presentation
      台湾
    • Year and Date
      2011年4月
  • [Presentation] Grammar-Based Compression for Frequent Pattern Mining2011

    • Author(s)
      M. Nakahara, S. Maruyama, T. Kuboyama, H. Sakamoto
    • Organizer
      ALSIP 2011
    • Place of Presentation
      香川県
    • Year and Date
      2011年12月

URL: 

Published: 2013-07-10  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi