2018 Fiscal Year Research-status Report
言語と非言語の混在するWWW上の生活習慣・健康情報の統合的解析
Project/Area Number |
18K11549
|
Research Institution | The University of Tokushima |
Principal Investigator |
吉田 稔 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (40361688)
|
Co-Investigator(Kenkyū-buntansha) |
北 研二 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10243734)
松本 和幸 徳島大学, 大学院社会産業理工学研究部(理工学域), 助教 (90509754)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 生活習慣分析 / 食事画像分類 |
Outline of Annual Research Achievements |
本年度は、主に生活習慣の分析について研究を進めた。ユーザーの食事習慣の分析のため、食事に関する言語と画像の関連分析用データセットを新たに構築した。具体的には、Twitterに投稿された画像を、文章と紐づけたデータを収集した。構築したデータセットに対しCNNによる画像分類やLDAによる言語分析を適用し、データの妥当性を検証した。また、ユーザーの睡眠時間と投稿の関係分析についても研究を進め、起床ツイートの一つ前のツイートから抽出した特徴量を利用した、睡眠時間の予測モデルの構築を行った。 テキスト上の数値情報解析については、新たに、ノンパラメトリックベイズモデルを数値と言語の関連分析に適用する手法について研究を進め、数値範囲に特徴的な言語表現の自動抽出や、言語表現に特徴的な数値表現の抽出等について研究を進めたほか、同手法の地理情報と言語表現の関連抽出への適用も試みた。 また、ユーザーのプロフィール情報と投稿との関連を分析するために、プロフィール中の単語と投稿中の単語分散表現を同時に学習する手法を開発し、プロフィールを用いたツイート予測精度を通じて性能を検証した。ユーザーの感情状態を推定する研究についても、ツイート文の感情分類手法に関する研究を進めた。 その他、テキスト解析の基礎技術として、アスキーアートの分類についても研究を進めた。Twitterやブログといった文書にはこれらの文字による視覚情報が多く含まれており、特にノイズ除去の前処理に効果を発揮することが期待できる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
生活習慣の分析については、食生活・睡眠という主要な課題について、当初の予定通り研究が進んでいる。特に、食生活の分類に関しては、Twitter上の投稿画像とそれに付随する言語情報を含んだ大規模なデータセットを構築し、この後の研究の見通しが立ったと考える。また、体重等の分析に必要な数値情報解析についても、新たな確率モデルを適用することにより、有望な結果を得ていると考える。ユーザーの状態推定についても、プロフィール情報を分析する手法を確立したことで、今後の分析が進むものと予測している。WWW文書のレイアウト分析に関しては未着手のため、今後積極的に進める予定である。
|
Strategy for Future Research Activity |
生活習慣の分析に関しては、これまでの成果を引き継ぐ形で、引き続き研究を進めていく。特に、構築した食事画像データセットに関し、実際に分析を進めていく予定である。個別技術に関しても、数値情報解析について、モデルの性能検証を進めるほか、未着手のレイアウト分析についても開発を進める。
|
Causes of Carryover |
次年度使用分は、主にサーバ購入費用である。現状の研究の進捗状況において、手法の検討とデータの収集を優先させ、計算機性能の必要な大規模実験が必要な段階には至っていないため、購入時期を遅らせることで、より高性能かつ目的に適した計算機の選定ができるものと考え、購入を次年度に回すこととした。
|
Research Products
(7 results)