研究概要 |
日本語と英語における言い淀みの対照研究を可能にするため,まず,複数のコーパスを収集し,付与すべき言語情報を検討した。日本語に関しては,これまでも分析に用いてきた『日本語話し言葉コーパス(CSJ)』について検討した。言い淀み分析という視点から見たCSJの問題点として,削除,言い換え,挿入,語レベルの繰り返しなどを示すラベルのないことが挙げられる。とりわけ,語レベルの繰り返し情報の欠如は,"I"や"the"の繰り返しが頻繁に起きる英語と比較する上で問題となるため,そのラベルを付加情報として加える作業を進めている。類似の取り組みが別のプロジェクトでも行われていることが明らかになったため,このラベリングに関してはそのプロジェクトと協力して進めていく予定である。CSJにおいて,フィラーの種類別頻度を性別・生年代別に東京方言話者に限って調べたところ,方言を限定しない場合とは異なる結果が得られた。これによって,フィラーの使用にも方言差のあることが示唆されたため,英語のフィラー分析の際にも,方言を考慮する予定である。英語のコーパスに関しては,複数のコーパスを検討した結果,現時点では,"Michigan Corpus of Academic Spoken English (MICASE)"が,内容・質の面から,CSJとの対照研究に最も適しているとの結論を得た。現在,MICASEに対し,CSJのタグに匹敵するような,言い淀みのタグ付けと形態素解析方法の検討を行なっている。また,言い淀みにおける方言差を調べるために,イギリス英語の講義・講演コーパスについても,現在,調査中である。
|