研究課題/領域番号 |
15K16077
|
研究機関 | 徳島大学 |
研究代表者 |
松本 和幸 徳島大学, 大学院理工学研究部, 助教 (90509754)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 俗語辞書 / 時系列分析 / 大規模コーパス / Twitter / ネット炎上 |
研究実績の概要 |
前年度に引き続き、辞書構築および知識ベースの構築を進めた。不変情報と変動情報の観点から、俗語と標準語を、コーパスから獲得した単語意味表現および表層特徴量に基づき分類する手法を、俗語の種別や、出現時期等を考慮して考案し、予備実験をおこなった。予備実験の結果、ある程度の分類性能が得られることを明らかにした。 現時点で、俗語を含んだ大規模ツイートコーパスの構築が部分的に完了しており、時間的な変動を分析するために必要なだけの分量が(約2年分)蓄積できている。このコーパスをもとに、辞書自動構築実験や分類アルゴリズムの評価、フィルタリング技術のプロトタイプ作成などを、次年度以降迅速に進めていくことが可能である。 2016年度は、俗語の変動分析手法に関する雑誌論文を1報、分散意味表現と感性的な類似性を考慮して俗語を標準語に変換するアルゴリズムについての雑誌論文を1報発表した。それに加え、俗語で表現された有害表現を、手作業で収集した有害表現辞書とその分散意味表現を用い、有害表現判別をおこない、フィルタリングするための技術を開発し、有害表現判定システムのデモ用プロトタイプシステムも構築した。この研究内容について、関連する分野の研究会において報告をおこなった。提案システムにより、Twitter上の炎上の防止に貢献することができ、社会的に問題となっている炎上現象のメカニズムの分析に貢献できると考える。 また、俗語の変動分析対象となるデータは、現在も収集中であり、俗語の意味的/感性的なアノテーションをおこない、ある程度大規模なコーパスとして構築することを考えている。既に、コーパスを分析するための枠組みをトピックモデリングおよび深層学習により実装し始めており、小規模なデータに対する分析結果が得られている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度に構築を始めた辞書やコーパス、知識ベースの整備作業が大詰め段階となり、作成した言語資源をもとに、ある程度の成果を出せるようになった。成果として、雑誌論文3報の発表、国際会議発表3件をおこなった。当初の予定では、データ整理作業に多くの時間と労力がかかるとみられていたが、前年度に確立した整備作業の効率化方法により、少人数によるデータ整理作業の著しい進展がみられた。
|
今後の研究の推進方策 |
次年度以降は、新しい手法を取り入れることにより、より精度の高い俗語感性辞書の構築方法を検討し、必要ならばデータの整理作業を追加で進めていく。また、研究室の進学人数などの関係で、人的リソースが不足していたため、今後は共同研究者との連携をより一層深めることにより、他研究機関の人的リソースをうまく追加できるように進めていきたいと考えている。 さらに、成果発表の場を、人工知能・感性情報関連分野以外の学際的な分野や、言語学的な分野にも広げることで、より研究を深化させるための議論ができると考えている。それに加え、構築した言語資源を部分的に公開し、利用してもらうことで、その利用方法についても様々な見解を得るということも考えている。 また、日本語俗語という特殊な言語表現を対象としているため、適用範囲が狭く、国際的な理解を得ることが難しい側面もあるため、他言語への応用方法や、俗語の発生と衰退現象のメカニズムを応用した、非言語的な表現との時系列的な関連付け(画像や音声・音楽情報との多メディアとの融合)の方法についても模索していく予定である。
|