2012 Fiscal Year Research-status Report
国語教材を訓練集合とした機械学習による心情推定方式の研究
Project/Area Number |
24650061
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | Hokkaido University |
Principal Investigator |
小山 聡 北海道大学, 情報科学研究科, 准教授 (30346100)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 機械学習 / 感性情報学 / 人工知能 / クラウドソーシング |
Research Abstract |
本年度は心情推定用テストコレクションの作成を中心に行った。題材としては青空文庫に公開されている著作権フリーの子供向けの小説を採用した。小説を台本形式に変換し、各登場人物の発話に当てはまる感情の種類を答えさせる設問を用意した。正解データを得るために、インターネット上で不特定多数の作業者(ワーカー)に仕事を依頼できるクラウドソーシングサービスを用いた。これにより、従来より短期間に安価に正解データを得ることが可能となった。 感情推定の問題は基本的には、一つのデータに対して複数のラベルを付与できるマルチラベル問題として定式化できる。たとえば、一つの発話に「怒り」と「悲しみ」の両方のラベルが付与されることがあり得る。すなわち、正解は一つではなく複数となるが、これら複数のラベルの間にも、想起のされ易さにおいて差が存在する。そのため、正解は複数のラベル上の分布の形を取ると考えることが自然である。 分布値を取る正解データを収集するには、例えば100人の人に同じデータについてラベリングをしてもらい頻度を数える等、大勢の人の意見を聞くことが有効であり、その意味でもクラウドソーシングを用いたアプローチは適切である。ただ、ラベリングを依頼する人の数が多くなれば、その分だけコストもかかるため、なるべく少ない人数のラベリング結果から、感情の分布を推定できることが望ましい。 我々は、複数の感情の間には共起のしやすさが異なる点に着目した。例えば、「怒り」と「悲しみ」は共起しやすいが、「怒り」と「喜び」は共起しにくいといった現象がある。そこで、感情間の相関を考慮することで、比較的少ないラベルから正解を推定することができる方式を開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
従来は研究者自身がテキストに感情ラベルを付与することで正解データを準備する必要があり、これが機械学習を用いた感情推定の研究におけるボトルネックとなっていた。最近日本でも急速に普及しつつあるクラウドソーシングサービスを用いることで、短期間に大量のテキストに感情ラベルを付与できるようになった。また、今年度の研究により、クラウドソーシングで収集したラベルからも高い精度で正解を推定できる見通しが得られたため、今後は機械的に大量の訓練データを収集し、研究の進展を加速することが可能となると考えている。
|
Strategy for Future Research Activity |
クラウドソーシングを用いて収集したラベルから正解を推定する問題は、近年機械学習の分野で着目されている。しかし、感情ラベルのように、マルチラベルでラベル間に相関がある問題を扱った例はなく、新規性が高いと考えており、次年度積極的に学会発表等を行う予定である。 また、現在は各登場人物の発話を独立に扱っているが、たとえば仲の良い登場人物同士であれば、相手が喜べば自分も喜ぶと言った共感関係が生じることがある。また、物語文には、ストーリーの進展によって緊張や不安が生じ、最終的にはそれらが解決されて結末を迎える、といった典型的なパターンも存在する。このような登場人物間の人間関係や感情の時間変化など、より物語文の特徴を活かした手法の開発も行いたいと考えている。
|
Expenditure Plans for the Next FY Research Funding |
本年度の研究成果を、次年度学会にて発表する予定である、その参加登録費および出張経費として使用する予定である。
|