研究課題/領域番号 |
15K16077
|
研究機関 | 徳島大学 |
研究代表者 |
松本 和幸 徳島大学, ソシオテクノサイエンス研究部, 助教 (90509754)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 俗語 / 感性特徴 / トピックモデリング / ツイッター分析 / 時系列変化 |
研究実績の概要 |
当該年度は,俗語辞書構築のためのデータ収集をおこなった.俗語抽出技術として,俗語らしさを表層的な特徴量により判定する手法と,俗語ならではの時系列変化の仕方を分析する手法について研究をおこなった.研究着手以前より収集していたツイッターのテキストデータを,俗語を検索キーワードとしてさらに拡張するため,専用サーバを準備し,大規模なテキストコーパスの収集に成功した.現在も,毎日約1千万件以上のツイートを収集中である.俗語の感性分析について,俗語と共起する感性語に基づき,俗語の感性特徴ベクトルを生成する手法を提案した.また,俗語が時系列においてどのような変化をするかについて,トピックモデリングの手法を用いて,トピック追跡により分析した.評価実験の結果から,ある程度,俗語の感性特徴を抽出できることがわかった.なお,俗語が「死語」や「廃語」であるかを判別する手法としてトピック変動における偏差値を用いる手法を考案し,その有効性を実験により確かめた. 研究成果として,国際誌IEEE Transaction on Affective Computing に本研究に関する原著論文を共著で発表し,知識処理に関する国際会議(FSKD2015, ICCC2015, NLP-KE2015)で3件,自然言語処理に関する国内研究会(SIG-NL)での発表1件をおこなった.また,本研究と関連する内容として,情報科学技術フォーラムFIT2015において4件の成果発表をおこなった.なお,感性コンピューティング分野の国際会議ACII2015にも参加し,関連研究成果の発表をおこなった. 今後は,俗語の標準語変換手法についての研究成果を雑誌論文に投稿する予定である.また,俗語の感性推定を用いた発話文の感情推定および,表層特徴量に基づく俗語判別手法についての研究成果も,まとまり次第,国際会議発表および論文投稿する予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初予定していたコーパスの構築が順調に進められている.また,国際学会での発表を優先したため,解析用サーバの購入は見送ったが,代わりに既存設備(開発用PC、サーバ)のメモリ等の増設をおこない,スムーズな研究開発ができた.また,当該年度から,研究室が移転し,研究環境が変化したが,無事実験補助の学生も確保することができたため,謝金によるデータ整理・正解データ作成などを十分な質と量で実施できた.
|
今後の研究の推進方策 |
今後は,現在執筆中の俗語の標準語変換手法についての研究成果を雑誌論文に投稿するとともに,この研究において用いた手法のいくつかを,俗語感性辞書の構築および,俗語感性コーパスの自動拡張に用いることを検討している.また,公開できるのは,1年~2年後になる予定であるが,俗語の標準語変換手法を実装した作文システムを開発し,日英機械翻訳と連携した,英作文システムや,多言語感情推定システムなどの実際のアプリケーションとして何らかの形にしたいと考えている.そのため,既に開発済みの技術の高速化や省メモリ化も視野に入れて研究開発を進めていきたいと考えている.また,今年度は,初年度にある程度の資源構築が実現できたため,研究の進展によっては,論文投稿に重点を置く予定である.
|
次年度使用額が生じた理由 |
今年度は,既に作成済みのデータベース,コーパスの増補と,実験のための正解データ作成などに人件費を使ったが,実験のための研究補助に人員を使わなかった.また,研究成果が予定よりも早く出たため,国際会議発表をはじめとする学会発表の渡航費,参加登録費および論文投稿費用に多くを支出した.このため,計算機環境を大幅にアップデートさせられなくなり,データベース管理および計算用の計算機サーバの購入を見送った.しかし,既存計算機のメモリやハードディスクの増強は必要であったため,それらの購入のために支出はおこなった.この結果,予定よりも支出額が少なくなり,次年度使用額が生じることとなった.
|
次年度使用額の使用計画 |
国際誌への投稿のための原稿の英文校正,論文投稿,計算機の部品等に使用する予定である.
|