2016 Fiscal Year Research-status Report

演奏者の個人性を転写する演奏生成と協調演奏システムの研究（国際共同研究強化）

Research Project

Project/Area Number	15KK0008
Research Institution	Nagoya Institute of Technology
Principal Investigator	酒向慎司名古屋工業大学, 工学(系)研究科(研究院), 助教 (30396791)
Project Period (FY)	2016 – 2017
Keywords	演奏表情生成 / マルチモーダル実演奏データ / 楽譜追跡 / セグメンタル条件付き確率場 / 畳み込みニューラルネットワーク
Outline of Annual Research Achievements	これまでに音楽情報処理分野において特に演奏支援に関わる研究を進めてきた。特定の個人性を備えた演奏を機械によって生成する演奏表情生成では、実演奏データから楽譜上のパターン（音符列）と演奏表情の関係を分類し、未知楽譜に対して演奏者の特徴を再現した演奏を生成することができる。人間の演奏に対して音響信号から楽譜上の演奏位置をリアルタイムで追跡する技術では、セグメンタル条件付き確率場(SCRF)と線形動的システム（LDS）を組み合わせることで、位置推定と局所的なテンポ変化をリアルタイムで推定する手法を提案し、これを応用した人間の演奏に合わせて機械が同期した伴奏を再生するシステムなども構築されている。さらに、バイオリンの運指のように形式知として記述が難しい演奏時の身体動作をモデル化することで、初級者のだけでなく様々な技量をもった演奏者に応じた適切な運指を推定する自動運指推定の研究などを進めてきた。これらの研究を元に、一次元信号による音響情報だけでなく画像情報や三次元的な位置情報によって表される演奏の身体動作を同時に扱うことで、個々の技術の高度化を目指すとともに新たなマルチモーダル演奏情報処理技術を開拓する。本研究課題ではリアルタイム楽譜追跡技術を拡張し、従来手法のように基本的な音符列の情報だけでなく、楽譜に記載されている高次の情報を活用する新たな手法を開発し、実演奏データに対してシミュレーション実験を行った。また、視覚情報を利用した運指推定手法の取り組みとして演奏動作における特に指形状変化を取得するための画像処理手法として、畳み込みニューラルネットワーク(CNN)による手形状認識技術を導入し、精密な3次元手形状モデルによって生成した合成画像を学習に用いる手法を開発した。3次元モデルで生成されたデータを追加することでCNNの学習効率を高め、実データに対する認識精度も改善することを示した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 表情を伴った実演奏に対して聴覚情報・視覚情報・身体動作など多元的な演奏情報を含んだ表情付きマルチモーダル演奏情報データベースの仕様と構築方法について検討し、電子ピアノを用いて演奏された音響信号、MIDI信号による打鍵タイミング・打鍵強度などの演奏情報、演奏中の指動作などの視覚情報として深度情報を含んだRGB-D情報を同時に記録する基本的なシステムを開発した。また、音響信号による楽譜追跡技術の高度化に取り組んだ。これまでに提案してきたSCRFとLDSに基づいたリアルタイム楽譜追跡技術を拡張し、従来手法のように基本的な音符列の情報だけでなく、楽譜に記載されている高次の情報を活用する新たな手法を開発した。具体的には演奏上の役割が異なるパート情報に着目し、演奏モデル内で打楽器やメロディなどを区別して扱う仕組みを導入した。RWC音楽データベースを用いたシミュレーション実験では、リアルタイム性を損なうことなく楽譜追跡精度が改善することを確認した。さらに視覚情報を利用した運指推定手法について検討し、まず演奏動作における特に指形状変化を取得するための画像処理手法として、畳み込みニューラルネットワーク(CNN)による手形状認識手法において、モデルの学習用データセットを拡張するために精密な3次元手形状モデルによって生成した合成画像を用いる手法を検討した。実写画像に加えて典型的な手形状の合成画像を多数生成することでデータセットを拡張し、実写画像に対する認識精度が大きく向上することを確認した。
Strategy for Future Research Activity	現在のマルチモーダル実演奏データでは身体動作を正確に記録することができず、モーションキャプチャなどの併用によって正解データを取得することが望ましい。ただし、本格的なモーションキャプチャは非常に高価であるため、何等かの簡易的な方法によって身体動作の計測手法を検討する。現在検討している方法として演奏者の妨げになることが少ない筋電センサによって演奏中の五指の動作を認識する技術が報告されている。本研究でも筋電センサの活用について具体的な検討を行い、すでに開発を進めている演奏データの計測方法を拡張し、実績のあるRWC音楽データベースの楽曲等を利用した実用的なマルチモーダル実演奏データベースを構築する。実演奏データをもとに音情報と視覚情報による複数モーダル情報を用いることで、すでに研究を進めている画像処理による運指の自動推定技術を高度化する。また、演奏追跡技術については、その応用システムである自動伴奏システムにおいて演奏音だけでなく演奏の動きからも演奏者のテンポ変化などを適切に予測できる可能性があるため、演奏者の動きの特徴を新たな素性としてモデルを拡張することを検討する。

Research Products
(5 results)

All 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Acknowledgement Compliant: 1 results) Presentation (4 results) (of which Int'l Joint Research: 4 results)

[Journal Article] 楽譜と表情を関連付けた統計モデルに基づく鍵盤楽器演奏の自動生成手法2016
- Author(s)
  奥村健太,酒向慎司,北村正
- Journal Title
  
  日本知能情報ファジィ学会誌
  
  Volume: 28 Pages: 557,569
- DOI
  10.3156/jsoft.28.557
- Peer Reviewed / Acknowledgement Compliant
[Presentation] Recognition of JSL Finger Spelling Using Convolutional Neural Networks2017
- Author(s)
  Hana Hosoe, Shinji Sako, Bogdan Kwolek
- Organizer
  15th IAPR International Conference on Machine Vision Applications (MVA)
- Place of Presentation
  Nagoya University, Japan
- Year and Date
  2017-05-08 – 2017-05-12
- Int'l Joint Research
[Presentation] Segmental Conditional Random FieldsAudio-to-Score Alignment Distinguishing Percussion Sounds From Other Instruments2016
- Author(s)
  Ayako Noguchi, Shinji Sako, Tadashi Kitamura
- Organizer
  5th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan
- Place of Presentation
  Honolulu, USA
- Year and Date
  2016-11-28 – 2016-12-02
- Int'l Joint Research
[Presentation] Vowel duration dependent hidden Markov model for automatic lyrics recognition2016
- Author(s)
  Shohei Awata, Shinji Sako, Tadashi Kitamura
- Organizer
  5th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan
- Place of Presentation
  Honolulu, USA
- Year and Date
  2016-11-28 – 2016-12-02
- Int'l Joint Research
[Presentation] Real-Time Japanese Sign Language Recognition Based on Three Phonological Elements of Sign2016
- Author(s)
  Shinji Sako, Mika Hatano, Tadashi Kitamura
- Organizer
  International Conference on Human-Computer Interaction
- Place of Presentation
  Toronto, Canada
- Year and Date
  2016-07-17 – 2016-07-22
- Int'l Joint Research

2016 Fiscal Year Research-status Report

演奏者の個人性を転写する演奏生成と協調演奏システムの研究（国際共同研究強化）

Principal Investigator

酒向 慎司 名古屋工業大学, 工学(系)研究科(研究院), 助教 (30396791)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 楽譜と表情を関連付けた統計モデルに基づく鍵盤楽器演奏の自動生成手法2016

Author(s)

Journal Title

DOI

[Presentation] Recognition of JSL Finger Spelling Using Convolutional Neural Networks2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Segmental Conditional Random FieldsAudio-to-Score Alignment Distinguishing Percussion Sounds From Other Instruments2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Vowel duration dependent hidden Markov model for automatic lyrics recognition2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Real-Time Japanese Sign Language Recognition Based on Three Phonological Elements of Sign2016

Author(s)

Organizer

Place of Presentation

Year and Date

酒向慎司名古屋工業大学, 工学(系)研究科(研究院), 助教 (30396791)