2009 Fiscal Year Annual Research Report
Project/Area Number |
19650067
|
Research Institution | Doshisha University |
Principal Investigator |
金 明哲 Doshisha University, 文化情報学部, 教授 (60275469)
|
Co-Investigator(Kenkyū-buntansha) |
村上 征勝 同志社大学, 文化情報学部, 教授 (00000216)
|
Keywords | 携帯メールの書き手 / 絵文字のカテゴリ化 / データマイニング / サポートベクターマシン / ランダムフォレスト |
Research Abstract |
携帯メールの文面情報を構成する主な要素は、文字列と絵文字・顔文字である。携帯メールの中で同じ意味やニュワンスで用いる絵文字・顔文字は、機種によって形状が異なる。携帯機種に依存しない書き手の特徴データを抽出するため、本研究では絵文字について感情を表すもの、身振り・抑揚を表すもの、装飾として用いられているもののようにカテゴリ化し、データ集計を行った。文字列データ関しては、機械的に集計を行った。 21年度は、これらのデータ抽出の見直しおよびチェックとそのデータに基づいた書き手の識別について繰り返し実験を行った。実験分析では、絵文字・顔文字データ、文面の文字列データを結合し、サポートベクターマシン法、バキング法、ブースティング法、ランダムフォレスト法など機械学習法の分類器を用いた。正解率の評価は交差確認法を用いた。 その結果、正解率は分類器によって若干異なるが、平均約90%の正解率で書き手を同定することが可能であることが分かった。しかし、書き手の同定の正解率は、同定すべく書き手の組み合わせによって、そのバラツキが大きい。任意の2人間の場合、交差確認法による正解率の範囲は約70%~99%になることが分かった。 また、本年度ではメールの書き手の同定に関連する研究として、文学作品の書き手の同定や執筆時期の推定などに関する次の研究も行った。 川端康成の作品の中で三島由紀夫が代筆したと言われている作品の書き手の同定 文章の執筆時期の推定-芥川龍之介の作品を例として-
|