Project/Area Number |
19H01133
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | National Institute of Informatics |
Principal Investigator |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
|
Co-Investigator(Kenkyū-buntansha) |
小林 亮太 東京大学, 大学院新領域創成科学研究科, 准教授 (70549237)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥44,330,000 (Direct Cost: ¥34,100,000、Indirect Cost: ¥10,230,000)
Fiscal Year 2023: ¥10,400,000 (Direct Cost: ¥8,000,000、Indirect Cost: ¥2,400,000)
Fiscal Year 2022: ¥10,270,000 (Direct Cost: ¥7,900,000、Indirect Cost: ¥2,370,000)
Fiscal Year 2021: ¥10,400,000 (Direct Cost: ¥8,000,000、Indirect Cost: ¥2,400,000)
Fiscal Year 2020: ¥10,400,000 (Direct Cost: ¥8,000,000、Indirect Cost: ¥2,400,000)
Fiscal Year 2019: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
|
Keywords | アルゴリズム / クラスタリング / 多様性 / ソーシャルメディア分析 / 形質 / SNS / トピック / データ解析 |
Outline of Research at the Start |
本課題ではWebテキスト等の自然言語ビッグデータから、クラスタやバースト等の意味的、時間的な局所構造を抽出し、分布や関連性を可視化して議論の流れやデマを獲得する手法を開発する。我々が開発したデータ研磨、バーストモデルを融合・発展して質の高い局所構造抽出手法を構築し、分布や関連を高次なマイニングと可視化により既存手法の限界を突破し、趨勢、デマ、多様性等の非言語的な形質を獲得する。社会科学等でのアンケートでの社会の実態や問題の獲得、SNSでの世論の抽出に新しい手法を提唱し、人々がネット情報に過剰に左右されずに情報を獲得し、ヘイトやデマ、いじめがないネット社会の構築に資することを目指す。
|
Outline of Annual Research Achievements |
テキスト情報と時系列情報の両面からマイクロブログなど時系列情報が加味されたテキストデータをクラスタリングし、その特徴を捉える手法を開発した。 マイクロブログのようなデータは、時系列情報が加味されているが、同一のトピックに所属することと、類似するタイムスタンプを持つことが等価でないために、時系列情報を効果的に用いてトピック分類を行うことが困難であった。今回、テキスト情報からマイクロクラスタを構築することで、単一のトピックに属し、かつ時系列の分布を持つ単位にデータをまとめ上げることに成功し、その時系列分布情報を使うことで、表面的な言葉使いは異なるが意味的に同一のトピックに対応するマイクロクラスタをまとめ上げる技術の開発に成功した。これは、時系列情報をマイクロクラスタを使うことで、形質化することに成功しており、本プロジェクトの基本コンセプトに合致する成果となっている。 また、この他にも、グラフ分析、テキスト分析、時系列データ分析などに有効な複数のマイニング型グラフアルゴリズムを開発し、同じく乱数生成などの基礎アルゴリズムの開発も行った。また、テキストデータの解析手法を現実の問題、とくに人文科学系のモチベーションを持つ問題へと適用し、解析結果を得ている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
形質として、時系列上の分布を利用することに成功。これにより今までより確度高く大きなトピックがとれるようになった。細かさもある程度自在にできるになった。形質を利用するという本プロジェクトの方向性がそのまま進んでいると考えている。 コロナに関しては、対面の議論が減ったが、その分チャットツールやテレビ会議システムの利用により、以前より密な連携を実現。一方で、RAやPDの雇用によるプログラム実装、およびデータ分析に関わる部分については、facetofaceのコミュニケーションの機会の喪失から人材発掘に困難が発生し、停滞している。
|
Strategy for Future Research Activity |
これからは、時系列以外の形質を用いて、クラスタ間の関係性を導くような手法、あるいはクラスタとトピックの関係性を導くような手法を開発する。特に、SNSデータなどショートテキストデータは、テキスト自体の情報は少なく、一方でテキスト以外の情報も付加されていることが多く、マイクロクラスタを構築することで、これらの情報を形質化できる可能性が高い。 また、多様性の解析手法についても、クラスタリングによる多様性の尺度だけでなく、他の情報、時系列情報や単語の分布などを用いて解析していくアプローチについて、基礎モデルや手法を開発していく。
|