2014 Fiscal Year Annual Research Report
Project/Area Number |
24500176
|
Research Institution | Kyushu University |
Principal Investigator |
廣川 佐千男 九州大学, 学内共同利用施設等, 教授 (40126785)
|
Co-Investigator(Kenkyū-buntansha) |
中藤 哲也 九州大学, 学内共同利用施設等, 助教 (20253502)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | テキストマイニング / 機械学習 / SVM / support vector machine / 属性選択 / ブートストラップ |
Outline of Annual Research Achievements |
検索条件で限定される分析対象文書集合について、SVM(support vector machine)を適用して特徴語を抽出するテキストマイニングの手法の開発と研究を行った。特に、少数の手掛語で検索結果の文書群を特徴付けるため、新な属性撰択の方法を検討し、性能評価を行った。また、特徴語の一般性と特殊性を定量化としてブートストラップ法を検討した。評価実験の文書群として、学術論文概要、授業への学生のコメント、英語学習作文例、有価証券報告書、医療情報文書、およびWeb文書を対象として、提案手法を適用し、属性撰択で得られた特徴語の妥当性と識別性の評価を行った。ブートストラップ法については特許登録となった。 学術論文概要については、問題点、手法、結果などの観点を表す文の手掛語を求めた。全ての単語を使う方法より判定性能が向上することを示した。 学生の成績を推定するため、授業前(Pre)、授業中(Corrent)、次回への準備(Next)という三つの観点に着目し、それらの観点を表す手掛り語をSVMと属性撰択で抽出し、各文が三つの観点を表す度合(PCNスコア)を機械的に推定する手法を構築した。推定性能はよくないが、PCNスコアと学生の成績推定性能に相関があることが確認できた。すなわち、PCNの観点についてきちんとコメントを書いている学生については、その学生の成績を推定でき、学生の指導への活用という画期的な成果が得られた。英文の典型的な誤りパターンに対する手 掛り語を求め、機械的に推定した間違いパターンを使って、母国語を推定することができること示した。 医療情報への応用として、股関節手術の手術記録を対象に、術後入院日数の長い患者を特定するための手術記録の手掛り語を求め、全ての単語を使ってSVMを適用した場合より、別性能が向上することを確認できた。この結果に基き、他の様々な医療情報への応用が見えてきた。
|
Research Products
(5 results)