研究課題/領域番号 |
24500296
|
研究機関 | 岡山県立大学 |
研究代表者 |
菊井 玄一郎 岡山県立大学, 情報工学部, 教授 (80395011)
|
研究分担者 |
但馬 康宏 岡山県立大学, 情報工学部, 准教授 (00334467)
|
キーワード | ウエブマイニング / マイクロブログ / テキスト解析 / 自然言語処理 |
研究概要 |
計画に従い,マイクロブログ向けの固有表現抽出,および,係り受け解析の精度向上に関する検討および必要なコーパスの構築を行った.また,マイクロブログ内容分析の一部となる「バースト語の即時自動推定」に関する研究を行った.具体的な内容は次の通りである. 1)固有表現抽出(計画書項目B2):昨年度作成したIREX固有表現タグ付きマイクロブログ1万記事を実験データとして本格的な検討を行った.基本的には教師あり系列ラベリング手法を前提として,①形態素解析誤りへの対応,②新聞等の大規模な教師データとの混合,③事項名Ontology等から作成した固有表現リストの情報を素性として用いることなどを試みた.特に③が有望と考えたが,実際は事項名以外の固有表現も多数現れるため,効果は限定的であることが分かった(岡山県立大学修士論文,渡辺謙一,2014.2). 2)係り受け解析(計画書項目C):本年度は本項目の最初の2段階にあたる,文境界,文節境界の自動推定処理の検討を行った.まず,マイクロブログ5000記事について文境界・文節境界を人手で付与したコーパスを作成し,既存手法では文節境界の精度がF値0.83程度であることが分かった.そこで,系列ラベリング手法を用いた自動分割を試みたところF値0.92と大幅に精度が向上することが分かった. 3)バースト語の自動推定:マイクロブログのバースト語は大量のマイクロブログを使えば推定可能であるが,多大なコストがかかる.そこで,既存のリアルタイムキーワード抽出サービスを使って候補となる語を収集し,教師あり学習を用いてこれらの中から真のバースト語を選択する手法を提案し,55%の一致率で正しいバースト語を抽出できることがわかった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
計画に上げた項目のうち,項目B2(「固有表現抽出法の検討」)について最終項目の「語彙拡張に基づく固有表現リストの拡充による精度評価」まで至らなかった. この他の計画していた項目(具体的には.項目C「係り受け解析」)については計画通りに進捗した.また次年度予定のD内容分析の高度化についてはその一部を前倒しで実施した(具体的にはチャット的メッセージに対する内容分類処理).
|
今後の研究の推進方策 |
次年度については当初計画通り研究を進める.なお,上述の,一部遅れている項目は今年度実施する.また,昨年度に引き続き,研究加速のため当研究室の大学院学生に手法の実装,検証,および,学会発表等を担当させる予定である.具体的な担当者名は次の通りである.難波悟史(博士前期2年),門内健太(博士前期2年).
|
次年度の研究費の使用計画 |
研究項目C(係り受け解析)において,係り先タグ付きデータの作成が未完了となった.これは当該データ作成の効率化に必要な,文節境界の自動認定処理の精度が想定より低かったためである. 年度末において障害となっていた文節境界認定処理精度は改善されたので,「次年度使用額」を用いて当該データの作成を実施する.当初予定の翌年度分使用額については計画通り使用する予定である.
|