• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Annual Research Report

WWW上の多種メディア情報利用のための数値情報解析

Research Project

Project/Area Number 24500162
Research InstitutionThe University of Tokushima

Principal Investigator

吉田 稔  徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)

Project Period (FY) 2012-04-01 – 2015-03-31
Keywords表形式解析 / 数値表現解析 / テキストマイニング
Outline of Annual Research Achievements

最終年度は、表形式中の数値データと、Twitterテキスト中の数値データとのマッチングに関する研究を主に行った。前年度までの研究で得られた、「数値データをコード化して文字列検索可能にする手法」を用い、表形式とTwitterテキストを、同一のコード化を通じて統合的に取り扱い可能にするという目標のもと、Wikipedia表形式と、Twitter中の数値を同時にコード化することを試みた。実際のデータに適用したところ、Wikipedia表形式、Twitterそれぞれで、各メディアに特徴的な定形表現が存在し、数値データの多くがこれら定形表現に基づいて表現されていることがわかった。そこで本年度は、任意のテキストから頻出する定形表現を高速に取得する手法を開発した。この手法は、先に開発した数値のコード化手法と組み合わせることで、テキスト中の数値データにも適用可能である。特に、表形式中の行・列毎に定形表現を抽出することで、各行および列を少数のパターンで記述する文字列の集合を取り出すことができた。
さらに、Wikipedia表形式について、それを含むテキストの見出し抽出(構造解析)を行い、さらに、記事のタイトルと、そのタイトルの上位語をWikipediaのリンク構造から取得し、表形式からの属性抽出と組み合わせることで、各セルの意味的位置づけを、効率的に表現する手法を開発した。また、実際にWikipedia表形式を解析し活用する際に、セル中の単位の省略が問題となり、これを補完するための単純なヒューリスティクス以上の手法が必要であることがわかった。そこで、本年度は、この単位の補完についても、手法の開発を行った。
前年度までの研究成果と併せ、これで、表形式中の数値データに関し、その意味付けを行い、さらに、数値のコード化による様々なメディアでの数値マッチングが可能になったと考える。

  • Research Products

    (4 results)

All 2014

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (3 results)

  • [Journal Article] Extraction Japanese Slang from Weblog Data Based on Script Type and Stroke Count2014

    • Author(s)
      Kazuyuki Matsumoto, Kyosuke Akita, Xielifuguli Keranmu, Minoru Yoshida and Kenji Kita
    • Journal Title

      Procedia Computer Science

      Volume: 35 Pages: 464--473

    • DOI

      10.1016/j.procs.2014.08.127

    • Peer Reviewed / Open Access
  • [Presentation] Reranking the Search Results for Lyric Retrieval Based on the Songwriters' Specific Usage of Words,2014

    • Author(s)
      Kazuyuki Matsumoto, Sasayama Manabu, Qingmei Xiao, Fujisawa Akira, Minoru Yoshida and Kenji Kita
    • Organizer
      The proceedings of the 4th international conference on electronics, communications and networks (CECNet2014),
    • Place of Presentation
      サンワールドホテル北京(北京、中国)
    • Year and Date
      2014-12-14
  • [Presentation] Extracting Corpus-Specific Strings by Using Suffix Arrays Enhanced with Longest Common Prefix,2014

    • Author(s)
      Minoru Yoshida, Kazuyuki Matsumoto, Qingmei Xiao, Xielifuguli Keranmu, Kenji Kita and Hiroshi Nakagawa
    • Organizer
      Proceedings of the 10th Asia Information Retrieval Society Conference (AIRS 2014), LNCS 8870
    • Place of Presentation
      グランドマルゲリータホテル(クチン、マレーシア)
    • Year and Date
      2014-12-05
  • [Presentation] Emotion Predicting Method Based on Emotion State Change of Personae according to the Other's Utterance2014

    • Author(s)
      Kazuyuki Matsumoto, Fuji Ren, Qingmei Xiao, Minoru Yoshida and Kenji Kita
    • Organizer
      Proceedings of the 3rd IEEE International Conference on Cloud Computing and Intelligence Systems(CCIS2014),
    • Place of Presentation
      香港理工大学(香港、中国)
    • Year and Date
      2014-11-29

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi