• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

Efficient Text Big Data Mining Technology via Structure Extraction

Research Project

Project/Area Number 19H01133
Research InstitutionNational Institute of Informatics

Principal Investigator

宇野 毅明  国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)

Co-Investigator(Kenkyū-buntansha) 橋本 隆子  千葉商科大学, 商経学部, 教授 (80551697)
小林 亮太  東京大学, 大学院新領域創成科学研究科, 准教授 (70549237)
久保山 哲二  学習院大学, 付置研究所, 教授 (80302660)
申 吉浩  学習院大学, 付置研究所, 教授 (60523587)
Project Period (FY) 2019-04-01 – 2024-03-31
Keywordsソーシャルメディア分析 / クラスタリング / 多様性 / アルゴリズム / 形質
Outline of Annual Research Achievements

テキスト情報と時系列情報の両面からマイクロブログなど時系列情報が加味されたテキストデータをクラスタリングし、その特徴を捉える手法を開発した。
マイクロブログのようなデータは、時系列情報が加味されているが、同一のトピックに所属することと、類似するタイムスタンプを持つことが等価でないために、時系列情報を効果的に用いてトピック分類を行うことが困難であった。今回、テキスト情報からマイクロクラスタを構築することで、単一のトピックに属し、かつ時系列の分布を持つ単位にデータをまとめ上げることに成功し、その時系列分布情報を使うことで、表面的な言葉使いは異なるが意味的に同一のトピックに対応するマイクロクラスタをまとめ上げる技術の開発に成功した。これは、時系列情報をマイクロクラスタを使うことで、形質化することに成功しており、本プロジェクトの基本コンセプトに合致する成果となっている。
また、この他にも、グラフ分析、テキスト分析、時系列データ分析などに有効な複数のマイニング型グラフアルゴリズムを開発し、同じく乱数生成などの基礎アルゴリズムの開発も行った。また、テキストデータの解析手法を現実の問題、とくに人文科学系のモチベーションを持つ問題へと適用し、解析結果を得ている。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

形質として、時系列上の分布を利用することに成功。これにより今までより確度高く大きなトピックがとれるようになった。細かさもある程度自在にできるになった。形質を利用するという本プロジェクトの方向性がそのまま進んでいると考えている。
コロナに関しては、対面の議論が減ったが、その分チャットツールやテレビ会議システムの利用により、以前より密な連携を実現。一方で、RAやPDの雇用によるプログラム実装、およびデータ分析に関わる部分については、facetofaceのコミュニケーションの機会の喪失から人材発掘に困難が発生し、停滞している。

Strategy for Future Research Activity

これからは、時系列以外の形質を用いて、クラスタ間の関係性を導くような手法、あるいはクラスタとトピックの関係性を導くような手法を開発する。特に、SNSデータなどショートテキストデータは、テキスト自体の情報は少なく、一方でテキスト以外の情報も付加されていることが多く、マイクロクラスタを構築することで、これらの情報を形質化できる可能性が高い。
また、多様性の解析手法についても、クラスタリングによる多様性の尺度だけでなく、他の情報、時系列情報や単語の分布などを用いて解析していくアプローチについて、基礎モデルや手法を開発していく。

  • Research Products

    (15 results)

All 2022 2021

All Journal Article (8 results) (of which Peer Reviewed: 8 results) Presentation (7 results) (of which Invited: 3 results)

  • [Journal Article] Modeling Collective Anticipation and Response on Wikipedia2022

    • Author(s)
      Ryota Kobayashi, Patrick Gildersleve, Takeaki Uno, Renaud Lambiotte
    • Journal Title

      Proceedings of the Fifteenth International AAAI Conference on Web and Social Media(ICWSM)

      Volume: 2022 Pages: 315-326

    • Peer Reviewed
  • [Journal Article] Analyzing temporal patterns of topic diversity using graph clustering2021

    • Author(s)
      Takako Hashimoto, David Lawrence Shepard, Tetsuji Kuboyama, Kilho Shin, Ryota Kobayashi, Takeaki Uno
    • Journal Title

      J. Supercomput

      Volume: 77(5) Pages: 4375-4388

    • Peer Reviewed
  • [Journal Article] A constant amortized time enumeration algorithm for independent sets in graphs with bounded clique number2021

    • Author(s)
      Kazuhiro Kurita, Kunihiro Wasa, Takeaki Uno, Hiroki Arimura
    • Journal Title

      Theoretical Computer Science

      Volume: 874 Pages: 32-41

    • Peer Reviewed
  • [Journal Article] Efficient enumeration of dominating sets for sparse graphs2021

    • Author(s)
      Kazuhiro Kurita, Kunihiro Wasa, Hiroki Arimura, Takeaki Uno
    • Journal Title

      Applied Mathematics

      Volume: 303 Pages: 283-295

    • Peer Reviewed
  • [Journal Article] Maximal strongly connected cliques in directed graphs: Algorithms and bounds2021

    • Author(s)
      Alessio Conte, Mamadou Moustapha Kante, Takeaki Uno, Kunihiro Wasa
    • Journal Title

      Discrete Applied Mathematics

      Volume: 303 Pages: 237-252

    • Peer Reviewed
  • [Journal Article] Modeling the Spread of Fake News on Twitter2021

    • Author(s)
      Murayama T, Wakamiya S, Aramaki E, and Kobayashi R
    • Journal Title

      PLOS ONE

      Volume: 16(4) Pages: e0250419

    • Peer Reviewed
  • [Journal Article] Two-stage Clustering Method for Discovering People’s Perceptions: A Case Study of the Covid-19 Vaccine from Twitter2021

    • Author(s)
      Takako Hashimoto, Takeaki Uno, Yuka Takedomi, David Shepard, Toyoda Masashi, Naoki Yoshinaga, Masaru Kitsuregawa, Ryota Kobayashi
    • Journal Title

      Bigdata 2021

      Volume: 2021 Pages: -

    • Peer Reviewed
  • [Journal Article] Random Number Generators in Training of Contextual Neural Networks.2021

    • Author(s)
      Huk, Maciej, Kilho Shin, Tetsuji Kuboyama, and Takako Hashimoto
    • Journal Title

      In Intelligent Information and Database Systems: 13th Asian Conference, ACIIDS 2021

      Volume: 2021 Pages: 717-730

    • Peer Reviewed
  • [Presentation] 唐宋八大家古文の計量分析的考察ー序、記、論の虚詞分析2022

    • Author(s)
      東英寿, 久保山哲二
    • Organizer
      『唐宋八大家研究』
  • [Presentation] 社会連携のためのファシリテーション講座 ①インタビューイング2022

    • Author(s)
      宇野 毅明
    • Organizer
      九州大学公開講座
    • Invited
  • [Presentation] 社会連携のためのファシリテーション講座 ②相互理解とコミュニケーション2022

    • Author(s)
      宇野 毅明
    • Organizer
      九州大学公開講座
    • Invited
  • [Presentation] 社会連携のためのファシリテーション講座 ③共通のテーマ設定2022

    • Author(s)
      宇野 毅明
    • Organizer
      九州大学公開講座
    • Invited
  • [Presentation] "総合知に向けた人文社会科学データの観点から"2022

    • Author(s)
      Hashimoto, T
    • Organizer
      公開シンポジウム「総合知創出に向けた人文・社会科学のデジタル研究基盤構築の現在」
  • [Presentation] 共食における銘々膳と共同膳の形式が参加者の会話行動に及ぼす影響2022

    • Author(s)
      徳永弘子, 久保山哲二, 木村敦, 武川直樹
    • Organizer
      電子情報通信学会技術研究報告121(363), pp.43-48, Jan. 2022
  • [Presentation] Structuring Topics on Large-Scale Twitter for Discovering People's Perceptions2021

    • Author(s)
      Hashimoto, T.
    • Organizer
      KJDB 2021

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi