研究概要 |
平成23年度は次の二つについて主に検討を行った。 (1)「かな書」データについて医学、芸術、工学の各分野からの情報ラベルの選定 (2)一部にラベルが付いたデータから効果的に学習することが可能な半教師あり学習アルゴリズムの開発上記(1)については、医学に関する情報ラベルとして体温(℃単位)、前日の睡眠時間(時間単位)、罹患状況(1:健康、2:風邪、3:その他)、疲れ状況(5段階評価)を選択し、芸術に関するラベルは5段階評価で、また工学に関するラベルとして話者IDを付与する。(2)については、乱数を利用した半教師あり学習アルゴリズムと、トランスダクティブ学習アルゴリズム[1]について検討した。乱数を利用するアルゴリズムについては、言語識別実験において評価したところ、データの次元数が大きい場合に十分な性能が得られず、問題があることを確認した。次年度以降に解決していきたい。トランスダクティブ学習アルゴリズムについては、トピック分類実験において評価を行い、そこそこ良い性能が得られることを確認した。[1] V. N. Vapnik, "Statistical Learning Theory," Jone Wiley&Sons, Inc., 1998.
|