2011 Fiscal Year Research-status Report
Project/Area Number |
23650091
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
松井 知子 統計数理研究所, モデリング研究系, 教授 (10370090)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 機械学習 / 統計科学 / かな書 |
Research Abstract |
平成23年度は次の二つについて主に検討を行った。 (1)「かな書」データについて医学、芸術、工学の各分野からの情報ラベルの選定 (2)一部にラベルが付いたデータから効果的に学習することが可能な半教師あり学習アルゴリズムの開発上記(1)については、医学に関する情報ラベルとして体温(℃単位)、前日の睡眠時間(時間単位)、罹患状況(1:健康、2:風邪、3:その他)、疲れ状況(5段階評価)を選択し、芸術に関するラベルは5段階評価で、また工学に関するラベルとして話者IDを付与する。(2)については、乱数を利用した半教師あり学習アルゴリズムと、トランスダクティブ学習アルゴリズム[1]について検討した。乱数を利用するアルゴリズムについては、言語識別実験において評価したところ、データの次元数が大きい場合に十分な性能が得られず、問題があることを確認した。次年度以降に解決していきたい。トランスダクティブ学習アルゴリズムについては、トピック分類実験において評価を行い、そこそこ良い性能が得られることを確認した。[1] V. N. Vapnik, "Statistical Learning Theory," Jone Wiley&Sons, Inc., 1998.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成23年度は当初、データベースの構築と統計的機械学習法の開発を行う計画であった。データベースの構築については、情報ラベルの選択と収集のための環境整備は行ったが、実際の「かな書」データの収集には至っていない。一方、統計的機械学習法の開発については、二つのアルゴリズムの検討を進め、その問題点も明らかにした。以上、平成23年度の研究の目的の達成度はやや遅れているが、次年度以降に挽回可能であると自己採点する。
|
Strategy for Future Research Activity |
平成24年度は前年度に引き続き、「かな書」データベースの収集と整備を行う。そのデータベースを利用して、「かな書」から体調や美しさなどの変化を判定する学習機械を構築する。また、前年度に確認した、乱数を利用した半教師あり学習アルゴリズムの問題点を解決し、その効果を検証する。さらに、学習機械の出力値から、情報の潜在性について、その誤りリスクを考慮しながら統計的に判定を行う手法を開発する。 平成25年度は、体調や美しさなどの情報に特徴的な「かな書」の筆跡パターンを自動抽出する方法を開発する。また、その筆跡パターンを利用者にフィードバックする効果について検討する。さらに、本研究で開発するいくつかの機械学習アルゴリズムを統合して、筆者判定、体調や気分の変化の推定、芸術性の判定を総合的に行うシステムを作成する。試験的に運用して、多様な情報を同時に扱う有効性を検証し、本システムの実用性に関する評価を行う。
|
Expenditure Plans for the Next FY Research Funding |
平成24年度は次の項目に研究費を使用する計画である。-「かな書」データベースの収集の作業支援(技術補佐員の謝金):96万円-「かな書」に関する本・資料の購入:20万円-研究調査のための旅費:30万円-その他(プリンタ消耗品など)
|