2014 Fiscal Year Annual Research Report

ＷＷＷ上の多種メディア情報利用のための数値情報解析

Research Project

Project/Area Number	24500162
Research Institution	The University of Tokushima
Principal Investigator	吉田稔徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	表形式解析 / 数値表現解析 / テキストマイニング
Outline of Annual Research Achievements	最終年度は、表形式中の数値データと、Twitterテキスト中の数値データとのマッチングに関する研究を主に行った。前年度までの研究で得られた、「数値データをコード化して文字列検索可能にする手法」を用い、表形式とTwitterテキストを、同一のコード化を通じて統合的に取り扱い可能にするという目標のもと、Wikipedia表形式と、Twitter中の数値を同時にコード化することを試みた。実際のデータに適用したところ、Wikipedia表形式、Twitterそれぞれで、各メディアに特徴的な定形表現が存在し、数値データの多くがこれら定形表現に基づいて表現されていることがわかった。そこで本年度は、任意のテキストから頻出する定形表現を高速に取得する手法を開発した。この手法は、先に開発した数値のコード化手法と組み合わせることで、テキスト中の数値データにも適用可能である。特に、表形式中の行・列毎に定形表現を抽出することで、各行および列を少数のパターンで記述する文字列の集合を取り出すことができた。さらに、Wikipedia表形式について、それを含むテキストの見出し抽出（構造解析）を行い、さらに、記事のタイトルと、そのタイトルの上位語をWikipediaのリンク構造から取得し、表形式からの属性抽出と組み合わせることで、各セルの意味的位置づけを、効率的に表現する手法を開発した。また、実際にWikipedia表形式を解析し活用する際に、セル中の単位の省略が問題となり、これを補完するための単純なヒューリスティクス以上の手法が必要であることがわかった。そこで、本年度は、この単位の補完についても、手法の開発を行った。前年度までの研究成果と併せ、これで、表形式中の数値データに関し、その意味付けを行い、さらに、数値のコード化による様々なメディアでの数値マッチングが可能になったと考える。

Research Products
(4 results)

All 2014

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (3 results)

[Journal Article] Extraction Japanese Slang from Weblog Data Based on Script Type and Stroke Count2014
- Author(s)
  Kazuyuki Matsumoto, Kyosuke Akita, Xielifuguli Keranmu, Minoru Yoshida and Kenji Kita
- Journal Title
  
  Procedia Computer Science
  
  Volume: 35 Pages: 464--473
- DOI
  10.1016/j.procs.2014.08.127
- Peer Reviewed / Open Access
[Presentation] Reranking the Search Results for Lyric Retrieval Based on the Songwriters' Specific Usage of Words,2014
- Author(s)
  Kazuyuki Matsumoto, Sasayama Manabu, Qingmei Xiao, Fujisawa Akira, Minoru Yoshida and Kenji Kita
- Organizer
  The proceedings of the 4th international conference on electronics, communications and networks (CECNet2014),
- Place of Presentation
  サンワールドホテル北京（北京、中国）
- Year and Date
  2014-12-14
[Presentation] Extracting Corpus-Specific Strings by Using Suffix Arrays Enhanced with Longest Common Prefix,2014
- Author(s)
  Minoru Yoshida, Kazuyuki Matsumoto, Qingmei Xiao, Xielifuguli Keranmu, Kenji Kita and Hiroshi Nakagawa
- Organizer
  Proceedings of the 10th Asia Information Retrieval Society Conference (AIRS 2014), LNCS 8870
- Place of Presentation
  グランドマルゲリータホテル（クチン、マレーシア）
- Year and Date
  2014-12-05
[Presentation] Emotion Predicting Method Based on Emotion State Change of Personae according to the Other's Utterance2014
- Author(s)
  Kazuyuki Matsumoto, Fuji Ren, Qingmei Xiao, Minoru Yoshida and Kenji Kita
- Organizer
  Proceedings of the 3rd IEEE International Conference on Cloud Computing and Intelligence Systems(CCIS2014),
- Place of Presentation
  香港理工大学（香港、中国）
- Year and Date
  2014-11-29

2014 Fiscal Year Annual Research Report

ＷＷＷ上の多種メディア情報利用のための数値情報解析

Principal Investigator

吉田 稔 徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)

Research Products

[Journal Article] Extraction Japanese Slang from Weblog Data Based on Script Type and Stroke Count2014

Author(s)

Journal Title

DOI

[Presentation] Reranking the Search Results for Lyric Retrieval Based on the Songwriters' Specific Usage of Words,2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Extracting Corpus-Specific Strings by Using Suffix Arrays Enhanced with Longest Common Prefix,2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Emotion Predicting Method Based on Emotion State Change of Personae according to the Other's Utterance2014

Author(s)

Organizer

Place of Presentation

Year and Date

吉田稔徳島大学, ソシオテクノサイエンス研究部, 講師 (40361688)