• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Research-status Report

コミュニティと用語の同時獲得手法に関する研究

Research Project

Project/Area Number 15K00309
Research InstitutionThe University of Tokushima

Principal Investigator

吉田 稔  徳島大学, 大学院理工学研究部, 講師 (40361688)

Project Period (FY) 2015-10-21 – 2018-03-31
Keywords用語抽出 / コミュニティ抽出
Outline of Annual Research Achievements

本年度は、用語抽出アルゴリズムの改良を主に行った。用語抽出の中間計算結果の保存手法を改良することで、厳密かつ省メモリで計算を行えるようになったほか、処理も高速化された。これにより、中間結果を用いて動的に用語候補スコアを更新することが可能になり、結果として、すでに抽出された用語をその後回避することで、より精度の高い用語リストを得られるようになった。また、この応用として、クエリ文字列に関連する用語を動的に取得する、高速な関連文字列抽出手法を実装し、実際に妥当な文字列が得られることを確認した。
また、コーパス収集について、これまでは、事前に設定した特定のユーザーの発言を収集する方針であったが、新たに、ランダムサンプリングで、プロフィール文字列と発言文字列のペアを取得する方針での収集を行った。収集したコーパスのサーベイを行った結果、プロフィール文字列が、ユーザーの特性を取得するのに極めて有効であるという見通しを得た。また、プロフィール文字列における特定のキーワードの有無を区別することで、プロフィールの違いによって異なる抽出文字列を得ることができ、これが、対義語等の取得に有用であるという感触を得た。
また、数値文字列の表現に関しては、有効数字の概念を用いた抽象化手法と、数値範囲を設定し量子化する手法の両者について開発を行い、それぞれの特性を比較した結果、用途に応じた使い分けが必要であるという知見を得た。
その他、近年研究が盛んな単語分散表現について、文字列を対象とした分散表現獲得の可能性についても検討を行い、文字列対象でもある程度妥当な分散表現を得ることが可能であるという知見が得られた。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

アルゴリズムの高速化・省メモリ化を行ったことで、ある程度大きなコーパスを対象に手法が適用できるようになり、また、新たなコーパス取得方針で、網羅性の高いテキスト集合が得られるようになったことで、ユーザーの特性文字列と、発言文字列の対応をマイニングするための環境が整ったため、目標のシステム実現への到達が見えてきている。
数値文字列・対義語の取得に関しても、手法の見通しが立ったことで、これを実装に組み込むことで、成果が得られる可能性が高い。

Strategy for Future Research Activity

プロフィール文字列と発言文字列のペアが今後の研究開発に有効であるという感触を得たため、今後はこのコーパスを対象に、ユーザーの特性と発言の特性を関連付ける研究を行う。具体的には、当初予定の通り、二部グラフを用いた手法により、コミュニティと用語の同時発見手法を検討する予定である。
また、二部グラフ構造は、単語分散表現抽出と類似の構造を持つため、このコーパスを分散表現獲得へ応用する可能性についても検討する。
また、数値文字列の取扱い手法・対義語発見手法を実装することで、文字列どうしの関連を取得する研究も行う。
これら手法の精度評価等を行うとともに、全体のシステムとして統合する。

Causes of Carryover

当初計画と比べ、コーパス収集方法と、Deep Learningを用いた手法の進展という点で環境が変化している。新しい手法により収集されたコーパスでは、プロフィール文字列と本文文字列との対応付けにより有用な知見が得られると思われるため、系列信号を対象とした再帰型ニューラルネットワーク手法を検討する必要がある。このために必要なマシンのスペックを、より最新の環境で検討する必要があることから、次年度に導入を行うほうが適切な導入が可能になると判断した。

Expenditure Plan for Carryover Budget

市販のサーバの最新動向を反映したメモリ容量およびGPUのスペックを検討し、サーバの導入を行う。旅費等については、研究成果の発表等、当初計画の通り進める。

  • Research Products

    (6 results)

All 2017 2016

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Acknowledgement Compliant: 2 results,  Open Access: 1 results) Presentation (4 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Refinement by Filtering Translation Candidates and Similarity Based Approach to Expand Emotion Tagged Corpus,2017

    • Author(s)
      Kazuyuki Matsumoto, Fuji Ren, Minoru Yoshida and Kenji Kita
    • Journal Title

      Knowledge Discovery, Knowledge Engineering and Knowledge Management. Communications in Computer and Information Science (CCIS)

      Volume: 631 Pages: 260-280

    • DOI

      10.1007/978-3-319-52758-1_15

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] 感性を考慮した日本語俗語の標準語変換2017

    • Author(s)
      松本 和幸, 土屋 誠司, 芋野 美紗子, 吉田 稔, 北 研二
    • Journal Title

      人工知能学会論文誌

      Volume: 32(1) Pages: WIIA1-WIIA12

    • Peer Reviewed / Open Access / Acknowledgement Compliant
  • [Presentation] Twitter を用いた感染症発生動向の視覚化2017

    • Author(s)
      松本 流星, 吉田 稔, 松本 和幸, 北 研二
    • Organizer
      人工知能学会インタラクティブ情報アクセスと可視化マイニング研究会(第15回)
    • Place of Presentation
      東京大学駒場Iキャンパス(東京都目黒区)
    • Year and Date
      2017-03-04
  • [Presentation] 表形式からの分散表現獲得2016

    • Author(s)
      吉田 稔, 松本 和幸, 北 研二
    • Organizer
      情報処理学会第229回自然言語処理研究発表会
    • Place of Presentation
      NTT武蔵野研究開発センタ(東京都武蔵野市)
    • Year and Date
      2016-12-22
  • [Presentation] Table Topic Models for Hidden Unit Estimation2016

    • Author(s)
      Minoru Yoshida, Kazuyuki Matsumoto and Kenji Kita
    • Organizer
      The 12th Asia Information Retrieval Societies Conference (AIRS2016)
    • Place of Presentation
      清華大学(北京、中国)
    • Year and Date
      2016-12-01
    • Int'l Joint Research
  • [Presentation] 表形式のトピックモデルとその数値単位推定への応用2016

    • Author(s)
      吉田 稔, 松本 和幸, 北 研二
    • Organizer
      情報処理学会第226回自然言語処理・第111回音声言語情報処理合同研究発表会
    • Place of Presentation
      東京工業大学 大岡山キャンパス(東京都目黒区)
    • Year and Date
      2016-05-17

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi