2008 Fiscal Year Annual Research Report
Project/Area Number |
19650067
|
Research Institution | Doshisha University |
Principal Investigator |
金 明哲 Doshisha University, 文化情報学部, 教授 (60275469)
|
Co-Investigator(Kenkyū-buntansha) |
村上 征勝 同志社大学, 文化情報学部, 教授 (00000216)
|
Keywords | 携帯メールの書き手 / 絵文字のカテゴリ化 / データマイニング / サポートベクターマシン / ランダムフォレスト |
Research Abstract |
20年度は、収集した携帯メールをクリーニングしながら、メールからデータを抽出するための実験研究を行った。携帯メール文の大きな特徴は、絵文字や顔文字がメール文に混在していることである。絵文字や顔文字は、機械的に直接集計することが困難であるため、人工的にデータの集計を行った。絵文字は携帯機種に依存する。つまり、同じ意味やニュワンスを示す絵文字は、機種によって形状が異なる。したがって、絵文字や顔文字をメールの文面に表示された形状のままで類別・集計したデータには、メールの作成者の特徴と携帯機種に依存する情報が混合されるため、期待した効果が得られない。そこで先行研究を踏まえて、絵文字について感情を表すもの、身振り・抑揚を表すもの、装飾として用いられているもののようにカテゴリ化し、データ集計を行った。また、作成したデータ構造に適するデータマイニングの方法について実験研究を進めた。方法としては主に、近年注目されているサポートベクターマシン法、バキング法、ブースティング法、ランダムフォレスト法など機械学習法を用いて予備実験分析を行った。予備実験では、メールの書き手に偏りがあるが、平均的に約90%の正解率で書き手を同定することができ、ランダムフォレスト法が最も作成したデータに適していることが分かった。なお、メールの書き手の同定に関連する研究として、文学作品の計量分析やテキストデータの統計的解析に関する研究も行った。
|