研究課題/領域番号 |
16H03426
|
研究機関 | 専修大学 |
研究代表者 |
丸山 岳彦 専修大学, 文学部, 准教授 (90392539)
|
研究分担者 |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 教授 (30182489)
山口 昌也 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 准教授 (30302920)
佐野 真一郎 慶應義塾大学, 商学部(日吉), 准教授 (30609615)
相澤 正夫 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 教授 (80167767)
久能 三枝子 (高田三枝子) 愛知学院大学, 文学部, 准教授 (90468398)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | コーパス / 昭和話し言葉コーパス / 話し言葉 / 経年変化 |
研究実績の概要 |
平成29年度に実施した研究の成果について、以下に述べる。 (1)「昭和話し言葉コーパス」の構築: 昨年度末に今後の課題として挙げた、転記テキストに対する時間情報の付与作業を進めた。作業者を雇用し整備を進めた結果、独話の音声資料(25時間分)については、当初の想定よりも時間がかかったものの、時間情報付き転記テキストの整備が完了した。今後は、対話の音声資料(25時間分)に対する時間情報付き転記テキストの整備を進めることが課題となる。 また、各録音資料に対するメタデータ(録音年月日・録音場所・発話者情報(氏名、性別、年齢、肩書など)の記録)の整備を進めた結果、独話(25時間分)については、ほぼその素性を明らかにすることができた。このデータは、今後のコーパス活用にとって、資料を層化する際の有力な手掛かりとなる。 (2) 成果発表: 平成29年9月4日(月)、国立国語研究所を会場として、"International Symposium on Diachronic Speech Corpora" と題する国際シンポジウムを開催した。Bas Aarts (UCL:イギリス)、Marja-Liisa Helasvuo (トゥルク大学:フィンランド)、Alessandro Panunzi (フィレンツェ大学:イタリア)、Marie Skrovec (オルレアン大学:フランス)、丸山岳彦(専修大学・国立国語研究所:日本)という5名の研究者をパネリストとして、各国における通時音声コーパスの整備状況について発表・議論を行った。 また、シンポジウム「日常会話コーパス」III での口頭・ポスター発表や、大阪府立大学、フィレンツェ大学での招待講演、データベースの公開(『名大会話コーパス』オンライン検索システム『中納言』版、『国会会議録』全文検索システム『ひまわり』用パッケージ)などの点で、成果があった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
「昭和話し言葉コーパス」の整備という点では、時間情報付き転記テキストの作成において、当初の想定よりも時間をかけて検討を行った。これは当初の想定にはなかった問題(音声不明部分の同定、発音情報の追加)に対処するためであり、少数のアノテータ(3名)を雇用して、集中的に検討作業に当たった。この結果、作業全体の進捗状況としては遅れ気味となったが、次年度以降に予定していたアノテーションの問題を事前に検討したものと考えれば、結果的には作業が進捗したと言える。 独話の音声資料(25時間)については時間情報付き転記テキストの整備が完了した。次年度以降は、対話の音声資料(25時間)について、本年度に検討したアノテーション基準に則って、時間情報付き転記テキストの整備を進めることになる。 また、構築したコーパスの分析という点では、整備の完了した独話のデータを対象として、パイロット的な分析を実施した。本格的な分析は、翌年度以降の課題とする。
|
今後の研究の推進方策 |
平成30年度以降は、対話の音声資料(25時間)を対象とした時間情報付き転記テキストの整備、各種アノテーション(形態論情報、節単位情報など)、言語学的分析、などの点を推進する。対話の場合、発話の重複(オーバーラップ)が多く生じるため、転記テキストの整備の際、正確な転記や話者の同定などの点で、多くの困難が生じることが予測される。必ずしもすべてが解決できるわけではないため、発話内容・発話者が不明な場合は、「●●●」のように伏字化しておくことで対処せざるを得ない。むしろ、対話の音声資料全体の作業を進めることに重点を置きたい。
|