2013 Fiscal Year Research-status Report
日英語話し言葉コーパスにおける言い淀み分類の精緻化と機能の対照分析
Project/Area Number |
24520494
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
渡辺 美知子 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (60470027)
|
Keywords | 非流暢性 / フィラー |
Research Abstract |
日本語の分析に関しては,文節境界におけるフィラーの出現率について,分析を精緻化した。即ち,分析対象とした『日本語話し言葉コーパス(CSJ)』中の講演のタイプ別,話者の性別に,修飾文節の係り先までの距離(文節数)と修飾文節直後のフィラー出現率との関係を調べた。修飾文節直後のフィラー出現率は,係り先までの距離が約5までの間は,講演のタイプ,話者の性別を問わず,係り先までの距離の伸長に伴い,単調に増加した。この結果は,フィラーが,比較的短いスパンの言語化の認知的負荷を反映した現象であるという仮説を支持するものである。また,話者が一時に言語化しているのはほぼ5文節の長さまでであることが示唆された。さらに,同様の分析を,頻出する4種類のフィラー,「アノ」「エー」「エート」「マー」について,種類別に行った。その結果,修飾文節直後のフィラーの出現率は,係り先までの距離の伸長に伴い,単調に増加しているものの,その上昇パターンは,フィラーの種類によって異なっており,フィラーの種類の選択に当たっては,話者の性別や講演のタイプが影響していることが示唆された。英語コーパスに関しては,目標の20講演の収録,書き起こしが完了し,そのうちの半分については節境界ラべリングも完了している。現在,残り10講演の節境界ラべリング作業中である。また,これと並行して,言い淀みの詳細なタグ付けも行っている。研究開始当初は,主に節を単位とした分析を行う予定であったため,詳細な節境界ラべリングを行ったが,日本語の研究の進捗に伴い,句が重要な単位であることが明らかになってきた。したがって,今後英語のコーパスに対して,句境界ラベルを追加付与する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
日本語の分析に関しては,順調に進んでいる。「研究実績の概要」で述べたように,文節境界のフィラーの出現率は全体としては後続構成素の複雑さ(係り先までの距離)を反映していたが,用いる種類については話者の性別や講演タイプの影響を受けるという興味深い結果が得られた。また,節よりも,より小さな単位である句(文節)レベルの生成の認知的負荷と深く関連していることも示唆された。この成果は近いうちに『音声研究』に掲載される予定である(掲載決定済み)。今後,文節境界や節境界のフィラーの音響的特徴の分析を進める予定である。英語データに関しては,言い淀みのタグ付けや,言語情報付与がやや遅れている。また,日本語の研究成果により,フィラー分析における句の重要性が示されたため,句境界ラべリングの必要が生じた。これらの作業を次年度前半に完了する予定である。
|
Strategy for Future Research Activity |
日本語に関しては,節境界,文節境界におけるフィラーの特徴の分析を,発話生成モデルに照らして,さらに進展させる。具体的には,文節境界のフィラーについては,後続構成素の複雑さ(係り先までの文節数)と強い関連が見いだされたので,今後,フィラーや周辺のポーズの持続時間などを調べ,フィラーが発せられる条件を,タイミングの側面から明らかにしていきたい。また,節境界のフィラーについては,節境界ラべリングを精緻化し,節長を文節単位で計測し,節境界における後続節の複雑さの影響をさらに詳細に調べる予定である。英語に関しては,まず,詳細な言い淀みタグの付与,節境界,句境界ラべルの付与を完了することを第一の目標とする。ただし,英語のフィラーとして代表的な ”uh”, “um” 以外にも,”like” や “sort of” などがフィラー的に用いられているケースは少なくなく,これらの扱いを検討する必要がある。その後,後続構成素の複雑さとフィラーの出現率との関係を日本語と対照できる形で調べる予定である。
|
Expenditure Plans for the Next FY Research Funding |
音声データ収録の完了が遅れたため,書き起こしやその後のラべリング作業に遅れが生じている。書き起こしやラべリングは,外部委託またはデータ分析補助者に依頼しているが,それらの作業が25年度に完了しなかったため,その分の経費が次年度使用となっている。 2014年度前半に,全ての英語データに対して,詳細な言い淀みタグの付与,節境界,句境界などの言語情報の付与を完了する予定である。次年度繰越予算はこれらの作業のために使用する。
|
Research Products
(3 results)