• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

WWW上の多種メディア情報利用のための数値情報解析

Research Project

Project/Area Number 24500162
Research Category

Grant-in-Aid for Scientific Research (C)

Research InstitutionThe University of Tokyo

Principal Investigator

吉田 稔  東京大学, 情報基盤センター, 助教 (40361688)

Project Period (FY) 2012-04-01 – 2015-03-31
Keywords表形式 / 数値表現 / テキストマイニング
Research Abstract

本年度は、まず、研究の準備として、Web文書データの準備および、Web文書データから表形式データを取り込むためのライブラリ作成を行った。また、テキスト中に存在する数値の傾向を調査するためのツールとして、コーパス中に存在する数値表現から、数値表現の分布グラフを自動的に作成するインターフェースの開発を行った。理論面では、表形式に対するベイズ的確率モデルに関して検討を行った。いくつかのモデルを検討した結果、セル間の依存関係を、表形式全体で統一するのではなく、各セル毎に独立させるという方針で、Pachinko Allocationに基づくモデルを作成することで、表形式の属性・属性値構造を推定できるモデルを考案し、Collapsed Gibbs Samplingを行うことによって、実際にある程度構造推定が行えることを確認した。また、テキスト外にメタデータとして存在する数値情報の活用の可能性に関しても検討を行った。具体的には、テキストに数値情報や位置情報が紐付けられていた場合に、その情報がテキスト中の単語とどのように関連付けられているかをマイニングする手法について研究を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

「コーパス取得」「数値情報抽出の実装」「表形式の前処理」等、研究の準備となる部分の実装がある程度完了し、また、次年度以降の課題である「トピックモデルの検討」に関しても、ある程度の見通しが得られた。「数値同義語」に関しては、研究全体として必須ではないため実装が後回しになっているため、これに関しては今年度以降で実装を行いたい。

Strategy for Future Research Activity

当初の計画通り、今年度以降で、提案アプリケーションを実現するための実際の確率モデルとアルゴリズムについて、本格的に検討を行なっていく予定である。また、発展的研究の可能性についても並行して検討していく。

Expenditure Plans for the Next FY Research Funding

当初の計画では、開発用サーバを初年度に購入する予定であったが、トピックモデルに関して検討を進めるにつれ、どのような確率モデルを軸として進めるか(次年度以降での研究課題)を確定し、そのうえで必要メモリ等についても確定するべきであるという判断に至った。このため、サーバ購入に関しては次年度で行う計画である。

  • Research Products

    (5 results)

All 2013 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (4 results)

  • [Journal Article] 新聞記事のテキストマイニングによる長期市場動向の分析2013

    • Author(s)
      藏本 貴久, 和泉 潔, 吉村  忍, 石田 智也, 中嶋 啓浩, 松井 藤五郎, 吉田 稔, 中川 裕志
    • Journal Title

      人工知能学会論文誌

      Volume: 28(3) Pages: 291-296

    • DOI

      10.1527/tjsai.28.291

    • Peer Reviewed
  • [Presentation] ソーシャルメディアからの地域固有表現の抽出

    • Author(s)
      加藤宏紀, 荒牧英治, 宮部真衣, 吉田稔, 佐藤一誠, 中川裕志
    • Organizer
      第4 回集合知シンポジウム
    • Place of Presentation
      東京
  • [Presentation] 製品修理作業レポートと付随する数値データ の関係性分析

    • Author(s)
      山本忠, 吉田稔, 中川裕志, 渋谷久恵, 前田俊二
    • Organizer
      第15 回情報論的学習理論ワークショップ(IBIS2012)
    • Place of Presentation
      東京
  • [Presentation] テキスト中の数値情報マイニン グと情報編纂:MuST 参加から見えてきたもの

    • Author(s)
      吉田稔, 杉浦隆博, 廣川敬真, 山田剛一, 増田英孝, 中川裕志
    • Organizer
      人工知能学会第26 回全国大会(JSAI 2012)
    • Place of Presentation
      山口
  • [Presentation] 新聞記事の テキストマイニングによる長期市場動向の分析

    • Author(s)
      蔵本貴久, 和泉潔, 吉村忍, 石田智也, 中嶋啓浩, 松井藤五郎, 吉田稔, 中川裕志
    • Organizer
      人工知能学会第26 回全国大会(JSAI 2012)
    • Place of Presentation
      山口

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi