2019 Fiscal Year Research-status Report
A quantitative study of diffusion processes of popular trends: an application of time series analysis of word counts in nationwide blog data
Project/Area Number |
17K13815
|
Research Institution | Kanazawa University |
Principal Investigator |
渡邊 隼史 金沢大学, 電子情報通信学系, 助教 (30783956)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 統計物理 / 普及現象 / ブログ解析 / 新語の定着 / 関連語 / 時間付きテキストデータ / SNS解析 / 文書長 |
Outline of Annual Research Achievements |
今年度は以下の研究を行った.研究自体は難航しており,今年度は,成果化まではたどり着けなかった.ただし,研究対象の現象の理解は進んだため,できれば,それをさらに進め,来年度の成果化までできればつなげられればと思う.具体的には以下の2つの研究を行った.
(1)ブログにおける新語の普及の研究: 日本中のブログにおける新語の出現頻度の時間変化の研究を本格的に行いはじめた.結果,以下のことがわかりつつある. (a)新語の出現頻度は普及現象の最も典型的な方程式であるロジステック方程式と相違する場合があり,それに近い別の微分方程式でよく記述できる.(b)定着したあとの頻度,増加率,増加時間の相互関係. (2)1/10サンプリングブログにおける共起語の時間変化の研究: あるキーワードに書かれた内容を調べるために,そのキーワードに書かれたブログに含まれる単語の件数の時間変化を知る必要がある.しかし,直接観測では件数は関心を反映しない.今年度は件数からブログの長さの変化の影響を除去する方法を研究した.
加えて,補助的な成果としては,前年度の研究成果を以下の3点の発表行った.(1)トルコイスタンブールで行われた国際会議 Young Business and Industrial Statisticians 2019で発表を行った.(2)京都で行われた国際会議 The conference of Data Science, Statistics & Visualisation 2019で発表を行った.(3)応用数理学会の学会誌「応用数理」に査読付き解説招待論文を投稿し受理された.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
以下の3点が遅れている理由である. (1)前年度からの遅れをそのまま継承している. (2)異動もありその準備のため研究が遅延した. (3)研究対象が想定以上に複雑でその解析に想定以上に時間がかかった.
(3)は,1/10サンプリングブログデータの「共起語」の研究についてである.具体的には,上記のデータの共起語頻度の時間変化は, 「関心自体の変化」と「ブログ総記事数」という2つの要因で主に決定されると研究前は予想していた.しかし,研究を進めていくにつれて,それらに加え「ブログ長の変化」や「単語使用の非一様性」など,4つ以上の要因で決定されている可能性がわかり,その解析と理解に時間がかかった(まだ,完全にはその関係は解明できていない).
|
Strategy for Future Research Activity |
来年度は,「新語」の普及の時間変化についてさらに研究を進め,現象の数理的背景を解明・確定したい. そして,できれば成果化(論文投稿)まで進めたい.まず,基礎研究では,新語の件数の従う方程式を確定を目指したい.さらに,そのパラメータの性質を解析することで,単語が定着したときの書かれる量に関する情報が普及の初期に含まれるかをあきらかにしたい(流行語の流行量の予兆は,流行の初期に含まれているか,初期情報を用いて予測できるかに対応する). また,それが新聞データや外国語データなどブログ以外に適応できるかを検証したい. 応用については,単語の共起語の時間的変化の性質について「変化がない場合」についてその性質の解明を行いたい(「ブログの長さ」や「ブログの量」や「単語使用の多様性」など何に依存しているかを調べたい).
|
Causes of Carryover |
研究の遅延のため経費執行が遅れたため。
|