研究課題/領域番号 |
24520494
|
研究種目 |
基盤研究(C)
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
渡辺 美知子 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (60470027)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 国際情報交換 |
研究概要 |
まず,入手できるデータの少ない,英語の自発音声の収集に着手した。既存の『日本語話し言葉コーパス(CSJ)』を日英語対照研究に活用することを考え,CSJの模擬講演のトピックの一つに類似した,”The most impressive event in my life” というタイトルで,10分~15分のスピーチを20代の米語話者から収集している。現在,総数で37名のスピーチを収録したが,分析対象となる条件を満たしている話者は17名に留まっている。収録と並行して書き起こしとラべリングの仕様を検討した。収録音声の第1次の書き起こしは終了している。 日本語に関しては,発話生成プロセスと言い淀みとの関連について,CSJを対象に分析を進めている。筆者のこれまでの研究から,フィラーはグローバルな発話内容の生成というよりは局所的な言語化のプロセスに密接に関連した現象ではないかと考え,後続言語要素が複雑なほどフィラーの出現率は上昇するという仮説を立てた。そして,言語化の単位としての文節に着目し,修飾文節の係り先までの文節数と修飾文節直後のフィラーの出現率の関係をCSJのデータを用いて調べた。修飾文節直後のフィラーの出現率は,係り先までの文節数が1~10の間はほぼ線形に上昇したが,その後の上昇は見られなかった。また,発話内容生成の認知的負荷とフィラーの出現率の関係についても調べた。内容生成の負荷は節頭で大きく,以降は減少すると考えられる。したがって,フィラーが内容生成の負荷にも関連しているとすると,フィラーの出現率は節頭で高く,それ以降は減少することが予測される。フィラーの出現率は節中の第一文節直後でのみ高く,それ以降の漸減は観察されなかった。これらの結果から,フィラーはグローバルな発話内容の生成というよりは,局所的な言語産出上の認知的負荷と密接に関連した現象であることが示唆された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成24年度の研究実施計画として,収録発話のセッティングとトピックの設定,データの予備収集,ラベリングスキームの検討,音声データ収集開始を挙げていた。「研究実績の概要」欄で述べたように,これらは全て行っている。英語の収録音声は,総数では当初の目標に達しているものの,話者の,アメリカ以外の国での滞在期間が長かったり,親の一方または両方が英語母語話者でなかったり,スピーチの途中でつまって続けられなくなったりするケースが予想以上に多く,分析に用いることのできるデータ数はまだ目標に達していない。
|
今後の研究の推進方策 |
英語の自発発話音声コーパスに関しては,データ収録をアメリカにて引き続き行なう。音声収録と並行して,一次書き起こし,書き起こしチェック,データの整形,話者情報・文法情報・言い淀みタグの付与,の手順で,コーパス構築作業を行なう。条件が許せば,アメリカ英語だけでなく,イギリス英語またはオーストラリア英語の収録も考えている。必要な音声の収録とコーパス構築が完了した時点で,まずは,基礎データとなる,言い淀みの出現率や分布の特徴を調べる。 日本語のコーパスに関しては,当面は『日本語話し言葉コーパス(CSJ)』の活用を考えている。さらに日本語データの追加が必要な場合はこれを行う。平成24年度の研究で,日本語の自発発話におけるフィラー分布の特徴を調べる上で,「節」に加え,「文節」がその単位として有効であることが明らかになった。25年度は,文節に着目した言い淀み分布の特徴をさらに調べることによって,日本語の発話生成プロセスと言い淀みとの関連についてのモデル化を進めたい。また,節の生成と言い淀みとの関連についても,CSJにおける節ラベルの分類を見直すことによって,分析の精緻化を図る予定である。
|
次年度の研究費の使用計画 |
平成24年度から繰り越される研究費は,主として,自発発話音声収録とコーパス構築のための人件費,謝金に当てる予定である。物品費はコーパス格納のためのハードディスク等に,旅費は国内外での学会参加やデータ収集に,その他の項目は,学会参加費,英語論文校正費等に用いる予定である。
|