2011 Fiscal Year Research-status Report
感情情報を含んだオノマトペデータベースの構築に関する研究
Project/Area Number |
23700256
|
Research Institution | Aoyama Gakuin University |
Principal Investigator |
内田 ゆず 青山学院大学, 理工学部, 助教 (80583575)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | ソフトコンピューティング / 自然言語処理 / データベース / オノマトペ |
Research Abstract |
本研究は日本語オノマトペ(擬音語・擬態語の総称)の用法について、話し手、あるいは書き手が抱いている感情の面から考究しようとするものである。具体的には、Web上に存在する文書からオノマトペが実際に使用されている例と感情情報を抽出し、体系的にまとめたデータベースを構築することを目的とする。完成したデータベースは、日本語学習者への支援(日本語教育分野)のみならず、対話分析への応用(自然言語処理分野)、言語学や認知科学研究へのデータ提供など、幅広い分野に貢献することが期待できる。平成23年度の研究実施計画では、"Web上の文書からオノマトペを含む大量のデータ(オノマトペ用例文)を高い精度で自動抽出する手法を提案し、性能評価を行い、成果の発表を行う"ことを目指していた。実際に、当該年度中にブログ記事を対象としたオノマトペ用例文の自動抽出手法を提案することができた。提案手法は、オノマトペの後続要素と係り先の分析から明らかになった、オノマトペを含む文の特徴を利用したものである。299語のオノマトペをクエリとして得た41,315 件分のブログ記事に本手法を適用した結果、15,437 文の用例文が抽出された。抽出の適合率は96.2%であり、大量の文書集合や語彙資源を必要としないシンプルな手法であるが、良好な結果となった。また、これらの成果をまとめて学術論文誌への投稿を行った。さらに、オノマトペの多義性に関する分析、感情の観点からのオノマトペの分類等を行い、3度の学会発表を行った。これらの活動を通して、自然言語処理や感情処理の専門家との有益な意見交換も行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の研究実施計画では、平成23年度にWeb上の文書からオノマトペを含む大量のデータ(オノマトペ用例文)を高い精度で自動抽出する手法を提案することと、オノマトペ用例文の自動抽出手法について性能評価を行い、成果の発表を行うことを目指していた。実際に当該年度中に提案したオノマトペ用例文の自動抽出手法は、オノマトペの後続要素と係り先を詳しく分析した結果に基づくものであり、機械学習等の統計的手法と比較すると大量の訓練データや特定の言語資源必要としないという利点がある。提案手法を用いて、299語のオノマトペを対象として15,437文の用例文が抽出された。抽出の適合率は96.2%であり良好な結果が得られている。この結果は、日本知能情報ファジィ学会の論文誌"知能と情報"へ投稿済みである。以上のように、現在までに当初の計画は達成していると判断できる。さらに、オノマトペの多義性に関する分析、感情の観点からのオノマトペの分類等を行い、3度の学会発表を行った。したがって、当初の計画以上に進展しているといえる。
|
Strategy for Future Research Activity |
平成23年度に収集したオノマトペ用例文の周辺文脈から、感情情報を抽出する。ここでは、既存の感情表現辞典に記載された10カテゴリ、2,101語の感情表現を用いてオノマトペと感情表現の共起頻度に基づいた感情判定を行う。上述の感情表現には、「ところ得顔("喜"カテゴリ)」や「平気の平左("安"カテゴリ)」など、現在ではあまり使用されなくなった表現が含まれている一方で、新語や顔文字など、Web上では頻繁に使用される表現が含まれていない。したがって、既存の感情表現のみでは高精度で感情情報を抽出することが困難である可能性がある。その場合は新たな感情表現辞典を構築することも検討する。完成したデータベースは、(1)オノマトペと感情情報を適切に関連付けているか、(2)このデータベースによって日本語オノマトペの理解が深まるか、の2つの観点から評価する。(1)の観点に対する評価方法としては、日本語を母語とする人たちによる主観評価が最も適しているだろう。なぜなら、オノマトペと感情の関連度を、何らかの基準を定めて数値で評価することは難しいためである。具体的には、データベースに含まれるオノマトペの用例を提示し、書き手がどのような感情を抱いているかを自由記述形式、あるいは選択形式で回答するというアンケートを実施する予定である。アンケート結果とデータベース内の感情情報との一致率によって本研究の妥当性を検証する。(2)の観点に対する評価方法としては、日本語を母語としない被験者による評価が適しているだろう。本研究で得られた感情情報付きのオノマトペ用例と、既存の国語辞書の記述を比較して理解に差があるかどうかを調査する予定である。さらに、上記の手法で評価した結果を取りまとめ、成果の発表を行う。
|
Expenditure Plans for the Next FY Research Funding |
次年度に使用する予定の研究費が15万円ほど生じている。その理由としては、データ整理への謝金が予定よりも少額となったことと、予定していた図書の購入を行わなかったことが挙げられる。次年度にもデータへのタグ付等の作業が発生することが予想されるため、この研究費を充てる予定である。また、図書の購入を次年度に繰り越す予定である。本来の次年度の研究費は、当初の予定通り、以下の用途に使用する。アンケート用紙を印刷するための高速カラープリンタ、アンケート調査の際に使用するノート型パーソナルコンピュータ各1台を購入する。アンケート調査の補助と、完成したデータベースを公開作業の補助に対する謝金を必要とする。研究打合せのための旅費(国内2回程度)、学会発表のための旅費(国内1回・国外1回)・諸経費を必要とする。研究成果をまとめ、学術論文誌への投稿を予定しているため、論文誌投稿料などの経費を必要とする。
|
Research Products
(3 results)