2014 Fiscal Year Research-status Report
音声言語アプリケーションのための漸進的係り受け解析技術の開発
Project/Area Number |
25730134
|
Research Institution | Nagoya University |
Principal Investigator |
大野 誠寛 名古屋大学, 情報基盤センター, 助教 (20402472)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 漸進的処理 / 依存構造解析 / 構文解析 / 字幕生成 / 改行挿入 / リアルタイム処理 / 入力予測 |
Outline of Annual Research Achievements |
平成26年度は、以下の4つの事項を実施した。 (1)係り先が未だ入力されていない文節が複数ある場合、それらの文節の係り先が同じであるか否かを明示した係り受け構造を任意の時点で出力可能な係り受け解析器を開発した。係り受け情報付き講演音声コーパスを用いて解析実験を実施し、開発した解析器の精度を定量的に評価した。開発した解析器の応用として、リアルタイム字幕生成のための逐次的な改行挿入手法を取り上げ、解析器から得られる構文情報を利用した精度向上について検討した。 (2)逐次的な改行挿入手法への応用について検討した結果、(1)で開発した解析器から得られる情報だけでは不十分であり、平成27年度に開発を予定していた係り受け解析器(係り先が未入力の文節に対して、その係り先がどのような文節であるかを明示した係り受け構造を任意の時点で出力可能な係り受け解析器)が不可欠であると判断し、この開発の検討を前倒して進めた。 (3)本科研費において開発する解析器の性能と人間の能力とを比較評価するために、人間の漸進的係り受け解析能力や入力予測能力を測定するWebインタフェースを開発した。このインタフェースでは、1文中の文節が先頭から順に1文節ずつ提示され、それまでに提示された文節列(1文の部分文節列)に対して、被験者が漸進的係り受け解析とテキスト入力予測を施す仕様となっている。 (4)漸進的係り受け解析やテキスト入力予測の精度向上を図るための要素技術として、係り受けと語順との関係を考慮し、係り受け解析と語順整序を同時に実行する手法の開発に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実施計画の通り、係り先が未だ入力されていない文節が複数ある場合、それらの文節の係り先が同じであるか否かを明示した係り受け構造を任意の時点で出力可能な係り受け解析器を開発した。ただし、当初の研究実施計画では、前述の漸進的係り受け解析器をリアルタイム字幕生成のための逐次的な改行挿入手法に応用する予定であったが、応用方法を検討した結果、平成27年度に予定していた漸進的係り受け解析器の開発が不可欠であると判断し、その開発の検討を前倒して行った。また、本科研費において開発する解析器との比較評価を行うため、人間の漸進的な係り受け解析能力や入力予測能力を測定するWebインタフェースを開発した。さらに発展として、係り受け解析と語順整序を同時に実行する手法の開発に取り組んだ。なお、本科研費による研究成果が電子情報通信学会論文誌の2015年4月号に採録されることが決定した。 以上より、「概ね順調に進展している」と自己評価した。
|
Strategy for Future Research Activity |
研究はおおむね順調に進展しており、引き続き、平成27年度の研究実施計画に基づいて研究を進める。具体的には、係り先が未入力の文節に対して、その係り先がどのような文節であるかを明示した係り受け構造を任意の時点で出力可能な係り受け解析器の開発に取り組む。そのために、下記に示す【開発ステップ】、【解析実験ステップ】、【応用実験ステップ】を順に実施する。 【開発ステップ】平成26年度に開発した解析器を改良し、「係り先が未入力の文節に対して、その係り先がどのような文節であるかを明示した係り受け構造」を任意の時点で出力可能な解析器を開発する。その際には、テキスト入力予測技術の知見を活用して、解析と予測を繰り返し行い、最終的な収束結果を解析結果とする機構の導入を検討する。また、係り先を予測した際の確信度を出力することを検討する。なお、開発がうまく進まない場合は、CIAIR車内音声対話コーパスや新聞記事コーパスの利用を検討する。これらのコーパスは、ドメインが絞られており、講演データと比べて1文が短いという特徴があるため、係り先を予測しやすいデータと考えられるためである。また、係り先文節(自立語+付属語)の予測が難しいことが判明した場合は、文節内の自立語の予測を試みる。 【解析実験ステップ】解析実験を行い、本解析器の解析性能を評価する。平成26年度に開発したWebインタフェースを使用して、人間の漸進的な係り受け解析能力や入力予測能力に関するデータを収集し、人間の能力との比較評価を実施する。 【応用実験ステップ】リアルタイム字幕生成のための逐次的な改行挿入手法などへの応用実験を行い、実際のアプリケーションに対する本解析器の有効性を評価する。
|
Causes of Carryover |
本度中の学術雑誌掲載を計画しており、そのための掲載料(別刷り代)を計上していた。本年度初めに投稿し、2014年11月末には採録通知を受け取っていたが、その掲載号が2015年4月号となったため、次年度使用額が生じた。
|
Expenditure Plan for Carryover Budget |
前述の電子情報通信学会論文誌の掲載料(別刷り代)として、次年度使用額(約13万円)を2015年4月に執行する。
|
Research Products
(4 results)