2017 Fiscal Year Research-status Report
Development of Evaluation Method and Standard Data Set for Fun of Humor
Project/Area Number |
17K00294
|
Research Institution | Hokkaido University |
Principal Investigator |
荒木 健治 北海道大学, 情報科学研究科, 教授 (50202742)
|
Co-Investigator(Kenkyū-buntansha) |
内田 ゆず 北海学園大学, 工学部, 准教授 (80583575)
佐山 公一 小樽商科大学, 商学部, 教授 (90271733)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | ユーモア / データベース / 駄洒落 / 面白さの評価手法 / ストーリージョーク / 皮肉 |
Outline of Annual Research Achievements |
H29年度は,ユーモアを収集し,ユーモアの面白さの評価手法を検討し,その開発を行う計画であった.そこでその第一段階としてインターネット上の駄洒落を収集した9つのサイトから駄洒落を大量に自動的に収集し,駄洒落データベースの構築を行った.その成果をH29年12月に開催された第56回ことば工学研究会において発表を行った.駄洒落データベースは51,000件を収録し,ツールを用いて形態素解析を行ったものに人手で種表現,変形表現,駄洒落の種類などのタグ付けを行ったものである. さらに面白さの評価手法の確立としては,駄洒落データベースを用いて認知科学的見地から駄洒落の面白の要因の分析を行った.この結果について前述の研究会において発表を行った.また.駄洒落データベースに含まれるオノマトペの分析を行い,その成果をH30年3月に開催された言語処理学会年次大会で研究発表を行った.さらに,駄洒落データベースなどを用いて駄洒落生成システムの開発を行い,その性能評価結果をH30年2月に開催された第57回ことば工学研究会において発表を行った. このようにH29年度は,代表的なユーモアである駄洒落について,大規模な駄洒落データベースの構築を行い,開発された駄洒落データベースを用いて,面白さの要因の分析,駄洒落に含まれるオノマトペの分析,駄洒落生成システムの開発とその性能評価を行った.また,駄洒落以外のユーモアとしてストーリージョーク,皮肉などを収集し,面白さの要因分析を行った. 当初の計画であったユーモアの収集によるデータベースの構築については,当初の予定をほぼ遂行でき,面白さの評価手法の検討については,開発された駄洒落データベースを用いて,認知科学的な観点からの面白さの要因分析,駄洒落に含まれるオノマトペの分析,駄洒落生成システムの開発を行ったので,これについても当初の予定をほぼ遂行できたと考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の最終目的は,ユーモアについての標準データセットを開発し,開発された標準データセットを用いてユーモアの面白さの評価手法を確立することである.この観点からみると,H29年度は代表的なユーモアである駄洒落について大規模なデータベースの開発を行い,開発された駄洒落データベースを用いて面白さの要因分析やオノマトペの分析を行い,さらに駄洒落データベースを用いた駄洒落生成システムの開発及び性能評価を行ったので,当初の計画は概ね順調に進展していると考えられるが,当初の予定であった駄洒落以外のユーモアについてのデータベースの開発及び面白さの要因の分析については,ストーリージョーク,皮肉についてある程度の量のデータをインターネット上より収集し,面白さの要因分析を行っている段階である.. 具体的には,数行程度の短いストーリージョークである「面白い話」収集しているインターネット上のサイトより,100個程度のユーモアを収集し,面白さの理由ごとに11種に分類した.H30年度からこのような方法を用いて,さらに大規模なデータを収集し,面白い話データベースを構築し,面白さの理由の分析を進める予定である.また,皮肉についてもYahoo! JAPANの10,000個の商品レビューより皮肉を収集し,その分析を行い,皮肉自動検出システムの試作を行った.皮肉検出の実験結果は,再現率は高くなっているが適合率が低い状況である. したがって,駄洒落については,大規模な駄洒落データベースの開発とそれを利用した面白さの要因分析,オノマトペの分析,駄洒落生成システムの開発及び性能評価とほぼ予定通り研究を遂行することができたが,それ以外のユーモアであるストーリージョーク,皮肉などについては,ある程度の量のデータを用いた分析を行っている段階である.
|
Strategy for Future Research Activity |
今後の研究の推進方策については,まず第一に現在51,000件を収録している駄洒落データベースを拡張し,10万件まで拡張することを考えている.これは,面白さの要因分析においてオノマトペの収録語彙数が不十分であることや駄洒落生成システムにおいて,お題にヒットする駄洒落を増やし網羅性を向上させるためである.具体的には,これまで収集した9つのサイトより取集した時点から新たに登録されたものを収集する,新たなダジャレ収録サイトを探し収集する.Web上で人手により入力できるサイトを作成し収集することなどを考えている.また,収集された駄洒落は形態素解析を行い,駄洒落データベースのフォーマットにしたがって,種表現,変形表現,駄洒落の種類などのタグ付などをした上で収録する予定である. また,10万件まで拡張した駄洒落データベースについては,公開し広く周知することを考えている.これは,当初の目的であるユーモアの研究基盤を構築のためである.具体的な方法としては,本科学研究費で開発したことを明記した上で研究代表者のホームページに置き,利用を希望する人からメイルで使用目的などの情報を得た上でダウンロードのパスワードを連絡しダウンロードしてもらうことを考えている.すでに,AIスピーカーを開発しているメーカーの方から言語処理学会年次大会の際に利用希望をいただいている.周知方法としては,言語処理学会,人工知能学会,ファジィ学会のメーリングリストに流すこと及び,これ以外の文系のメーリングリストについては研究分担者から依頼を行う予定である. 駄洒落以外のユーモアのストーリージョーク,皮肉などについても精力的に研究を進める予定である.具体的にはストーリージョークについては,面白い話を大量に収集し面白さの要因分析を行い,皮肉についてはツイッター上のタグから皮肉の収集を行い皮肉の自動検出の研究を進める予定である.
|
Causes of Carryover |
当初の計画では,駄洒落データベース中に出現するオノマトペの分析を行う際に複数名で行う予定であった.しかし,予備的な分析を行ったところ,研究分担者が単独で分析することが適切であるという結論に至った.したがって,データを共有するための記憶メディア(外付けハードディスクやUSBフラッシュメモリ等)の購入を見送ることとし.次年度使用額が生じた. 平成30年度には,分析結果を広く公開するため学会での発表を計画している.次年度使用額はその際の旅費として使用する予定である.
|