研究課題/領域番号 |
20500106
|
研究機関 | 龍谷大学 |
研究代表者 |
渡辺 靖彦 龍谷大学, 理工学部, 講師 (10288665)
|
研究分担者 |
岡田 至弘 龍谷大学, 理工学部, 教授 (30127063)
馬 青 龍谷大学, 理工学部, 教授 (30358882)
吉見 毅彦 龍谷大学, 理工学部, 准教授 (50368031)
南條 浩輝 龍谷大学, 理工学部, 助教 (50388162)
|
キーワード | webサービス |
研究概要 |
20年度は、まず計画通りに言語資源を収集し、関連研究のサーベイを進めながら、質問作成支援システムを試作するために、コミュニケーションサイトへ投稿する質問を作成するのに役立つ情報を抽出する方法について検討を行った。質問を作成するのに役立つ情報として、(1)知っている情報をどこまで質問で述べたらいいのか判断する手がかりになる情報、(2)知らないことであっても簡単に確認できる情報、の2つを取り上げ、これらの情報をコミュニケーションサイトに投稿されたメッセージ(質問と回答)から取り出す方法について検討を行い、(1)と(2)の情報を含む文をSVMを用いてそれぞれ0.47、0.65(F値)の精度で取り出せることを明らかにした。調査・実験にはYahoo!知恵袋を利用した。さらに、メッセージからの情報抽出の精度を低下させる問題として、(a)メッセージの過剰な段落わけ、(b)メッセージの評価の操作、の2つについて検討を行った。(a)の過剰な段落わけは、メッセージを読みやすくするために行われることが多い。そこで、段落わけの妥当性を判定する方法について検討を行い、SVMを用いて0.92(F値)の精度で正しく判定できることを明らかにした。一方、(b)のメッセージの評価の操作は、複数のユーザIDを利用して別人になりすましたユーザによって行われることが多い。評価の高いメッセージから情報を取り出すのがのぞましいので、複数のユーザIDを利用してメッセージを投稿している可能性のあるユーザを文体の特徴を利用して特定する方法について検討を行い、頻繁にメッセージを投稿/評価するユーザであるなら、新たに5つのメッセージが投稿されれば99%の精度でユーザを特定できることを明らかにした。なお、投稿されたメッセージでは表記の選択の混乱(具体的には劣勢な表記の利用)がよく見られる。劣勢な表記は誤りではないが、そのメッセージへの評価を低下させるおそれがある。そこで、新聞記事および専門文書における表記のゆれを調査し、優勢表記辞書を作成し、優勢な表記の利用を促す作文支援システムを試作した。
|