研究課題/領域番号 |
19H01133
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
|
研究分担者 |
小林 亮太 東京大学, 大学院新領域創成科学研究科, 准教授 (70549237)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
44,330千円 (直接経費: 34,100千円、間接経費: 10,230千円)
2023年度: 10,400千円 (直接経費: 8,000千円、間接経費: 2,400千円)
2022年度: 10,270千円 (直接経費: 7,900千円、間接経費: 2,370千円)
2021年度: 10,400千円 (直接経費: 8,000千円、間接経費: 2,400千円)
2020年度: 10,400千円 (直接経費: 8,000千円、間接経費: 2,400千円)
2019年度: 2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
|
キーワード | アルゴリズム / クラスタリング / 多様性 / ソーシャルメディア分析 / 形質 / SNS / トピック / データ解析 |
研究開始時の研究の概要 |
本課題ではWebテキスト等の自然言語ビッグデータから、クラスタやバースト等の意味的、時間的な局所構造を抽出し、分布や関連性を可視化して議論の流れやデマを獲得する手法を開発する。我々が開発したデータ研磨、バーストモデルを融合・発展して質の高い局所構造抽出手法を構築し、分布や関連を高次なマイニングと可視化により既存手法の限界を突破し、趨勢、デマ、多様性等の非言語的な形質を獲得する。社会科学等でのアンケートでの社会の実態や問題の獲得、SNSでの世論の抽出に新しい手法を提唱し、人々がネット情報に過剰に左右されずに情報を獲得し、ヘイトやデマ、いじめがないネット社会の構築に資することを目指す。
|
研究実績の概要 |
テキスト情報と時系列情報の両面からマイクロブログなど時系列情報が加味されたテキストデータをクラスタリングし、その特徴を捉える手法を開発した。 マイクロブログのようなデータは、時系列情報が加味されているが、同一のトピックに所属することと、類似するタイムスタンプを持つことが等価でないために、時系列情報を効果的に用いてトピック分類を行うことが困難であった。今回、テキスト情報からマイクロクラスタを構築することで、単一のトピックに属し、かつ時系列の分布を持つ単位にデータをまとめ上げることに成功し、その時系列分布情報を使うことで、表面的な言葉使いは異なるが意味的に同一のトピックに対応するマイクロクラスタをまとめ上げる技術の開発に成功した。これは、時系列情報をマイクロクラスタを使うことで、形質化することに成功しており、本プロジェクトの基本コンセプトに合致する成果となっている。 また、この他にも、グラフ分析、テキスト分析、時系列データ分析などに有効な複数のマイニング型グラフアルゴリズムを開発し、同じく乱数生成などの基礎アルゴリズムの開発も行った。また、テキストデータの解析手法を現実の問題、とくに人文科学系のモチベーションを持つ問題へと適用し、解析結果を得ている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
形質として、時系列上の分布を利用することに成功。これにより今までより確度高く大きなトピックがとれるようになった。細かさもある程度自在にできるになった。形質を利用するという本プロジェクトの方向性がそのまま進んでいると考えている。 コロナに関しては、対面の議論が減ったが、その分チャットツールやテレビ会議システムの利用により、以前より密な連携を実現。一方で、RAやPDの雇用によるプログラム実装、およびデータ分析に関わる部分については、facetofaceのコミュニケーションの機会の喪失から人材発掘に困難が発生し、停滞している。
|
今後の研究の推進方策 |
これからは、時系列以外の形質を用いて、クラスタ間の関係性を導くような手法、あるいはクラスタとトピックの関係性を導くような手法を開発する。特に、SNSデータなどショートテキストデータは、テキスト自体の情報は少なく、一方でテキスト以外の情報も付加されていることが多く、マイクロクラスタを構築することで、これらの情報を形質化できる可能性が高い。 また、多様性の解析手法についても、クラスタリングによる多様性の尺度だけでなく、他の情報、時系列情報や単語の分布などを用いて解析していくアプローチについて、基礎モデルや手法を開発していく。
|