2010 Fiscal Year Annual Research Report
大規模コーパスを用いた同時通訳者の通訳プロセスの定量的な分析
Project/Area Number |
22720154
|
Research Institution | Nagoya University |
Principal Investigator |
笠 浩一朗 名古屋大学, 大学院・国際開発研究科, 助教 (40397451)
|
Keywords | 通訳研究 / 自然言語処理 / 機械翻訳 |
Research Abstract |
・同時通訳データベース(SIDB)へのアノテーションの実施 ・単語・音素単位の時間情報の付与:同時通訳データベースには、もともと発話単位(200msのポーズで区切られた単位)で時間情報が付与されているので、その単位をさらに細かい単位である単語・音素単位で時間情報を付与した。時間情報の付与では、書き起こしテキストに対して、単語の読みを付与し、さらに読みから音素を付与したデータを作成した。その音素データと音声波形データを用いて、単語・音素セグメンテーションツールにより、単語・音素単位での時間情報を付与した。読みの付与には、形態素解析器を用いることで、自動的に実施した。付与率は、英語・日本語ともに90%以上であり、分析に十分な量のデータを構築できた。 ・言語情報の付与:日本語データは、形態素解析器「茶筌」、依存構造解析器Cabocha、節境界解析器CBAPを用いて形態素、句、節レベルでの言語情報を付与した。一方、英語のデータは、構文構造解析器を用いて、区単位での構文情報を付与した。 ・対訳対応データの付与:同時通訳プロセスの解明するために、同時通訳者が脳内に蓄積していると考えられる情報の量(蓄積量)を仮想的に計測するために、原文と訳文間で対訳対応関係の情報を獲得した。対訳対応関係の獲得には、スクリプト言語PHPを用いて、Web上でアノテーション可能なツールを作成し、効率的にアノテーションを実施した。
|
Research Products
(2 results)