研究課題/領域番号 |
19H01133
|
研究機関 | 国立情報学研究所 |
研究代表者 |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
|
研究分担者 |
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
小林 亮太 東京大学, 大学院新領域創成科学研究科, 准教授 (70549237)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | ソーシャルメディア分析 / クラスタリング / 多様性 / アルゴリズム / 形質 |
研究実績の概要 |
多様性の解析に対しては、クラスタのモデル化を必要としない、単語の多様性を元にトピックの多様性を測る手法を開発中である。テキスト情報のクラスタリングは、書き手の書きぶりに左右されるため、導出した多様性尺度が意味的な多様性との乖離する可能性がある。この点を埋めるべくモデル化を検討した。ただし、単語を用いた場合に、他の、時刻やユーザIDなどのデータには利用できなくなるため、この点について今後とも検討していく。 クラスタとトピック数から算出した多様性の時間推移を見ることで、トピックの多様性がどのように推移していくか、どこで大きな転換点が出ているかを解析する方法を開発した。SNSを対象とはしているが、一般のデータでも適用可能である。ただし、現在の仕様では、大きな反響がある話題と小さな反響がある話題の多様性を標準的に扱うことはできておらず、2次元上にプロットし、動画化することで、時間推移の様子を可視化している。ここに関しては今後開発を進めていく予定である。 また、言語データの形質となり得るグラフ構造を、データから抽出するアルゴリズムについて研究を行い、いくつかの高速アルゴリズムを構成することに成功した。同時に、データの特徴量を抽出するアルゴリズムについても開発を行い、より、精度高く、多様な特徴量が抽出できるよう開発を行った。離散構造を取り扱うアルゴリズム自体も開発を行い、開発したモデルやアルゴリズムなどにおいて、高速化を行う手法を開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
多様性の解析手法、単語分布やクラスタなどの形質から多様性やキーワードなどを抽出する手法の根本的なデザインなどは順調に進んでいる。一方で、研究を形にする部分、多くの研究者と議論して、手法の意味や効果をしっかりと検証し、改良を加える部分、データを入手し、その解析方法や、分析結果の利用方法を議論するところ、海外の研究者などと、世界の動向を共有し、研究の立ち位置を定めていくところなど、コロナ禍でのコミュニケーションに要するコストの増大が研究の障害となっているところは多い。
|
今後の研究の推進方策 |
多様性解析については、現実のデータを選び、それでの検証を行い、改良を行う。SNSのデータを中心に行うが、単にテキストにとどまらず、時刻情報、リアクション、ユーザ分布などの情報を中心に解析を行う。また、このような多様性に基づく解析がそれぞれの属性に対してどのように振る舞うか、また、多様性に違いがあるとしたらどのようなものか、など、形質として見た多様性の利用を元に意味構造を取り出すような手法についても研究を行う。また、クラスタを形質として扱う技法を開発し、従来行われていたタスク、キーワード抽出などに対して、新しい技法の開発を試みる。
|