2022 Fiscal Year Annual Research Report
Efficient Text Big Data Mining Technology via Structure Extraction
Project/Area Number |
19H01133
|
Research Institution | National Institute of Informatics |
Principal Investigator |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
|
Co-Investigator(Kenkyū-buntansha) |
小林 亮太 東京大学, 大学院新領域創成科学研究科, 准教授 (70549237)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | ソーシャルメディア分析 / クラスタリング / 多様性 / アルゴリズム / 形質 |
Outline of Annual Research Achievements |
単語の多様性からテキストの多様性や類似性を図る方法を開発した。2つのテキストの多様性と、2つのテキストを合わせたときの多様性を評価することで、両者の異なりの大きさから距離のようなものを導きだし、文書集合に対してある程度直感的な類似性を図る方法を構築した。実際のニュースのコメントデータに対する適用で、直感的な観察とこの手法による類似度がおおまかに一致することが見て取れること、あらたな観点からコメントの構造に関する示唆が与えられることが確認できた。 また、形質的なアプローチから、選挙公報の解析と、誹謗中傷の語りのデータの解析を行った。前者は、選挙における候補者のメッセージングがどの程度紋切り型、中央集権的かを解釈する上での参考となり得るものであり、後者は誹謗中傷というある種定義がしにくいものがどのような形質を持っているかを解析したものであり、ある種の定量化に成功している。 また、形質的な方向からコロナ禍におけるワクチンに対する人々の反応や受容を、形質という情報学的な構造を文学の読みと意図推察の技術を用いて解析する、という新しいタイプの研究を行った。ここからは、人々の受容の、今までとらえられていなかった新しい解釈が導出されるなど。大きな進展を見ることができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
形質によるテキストデータ解析の技術が順調に進んでいる。単語の多様性から類似性を評価する方法も開発が行われ、形質を他の定量化の尺度として利用する方向性からアプローチする方法論を構築しつつある。クラスタリングによる形質の方向からの技術開発も評価されており、国際会議において招待チュートリアルを行っている。 また、形質的なアプローチから、選挙公報の解析と、誹謗中傷の語りのデータの解析ができており、応用方向への進展が確実に進んでいる。選挙においても、誹謗中傷においても、人々の反応を形質のほうからある程度の定量化に成功しており、確実に今までの限界を少しずつ突破する研究を生み出せていると考えている。特にコロナ禍のワクチンに関するツイート解析においては、今までにない形での知見の導出に成功しており、新しい形の研究を拓けていると考えている。
|
Strategy for Future Research Activity |
計画は順調に進んでいるので、この方向性を保持した、形質に基づくテキスト解析のアプローチをより進めていくとともに、誹謗中傷や選挙などの応用分野への展開を目指す。また、多様性やクラスタ構造を元にした形質からの他のタスクへの展開を進めていき、キーワードや重要単語の抽出などを形質の面からモデル化していくような研究を目指す。
|