研究課題/領域番号 |
16H03426
|
研究機関 | 専修大学 |
研究代表者 |
丸山 岳彦 専修大学, 文学部, 准教授 (90392539)
|
研究分担者 |
相澤 正夫 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (80167767)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
山口 昌也 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 准教授 (30302920)
久能 三枝子 (高田三枝子) 愛知学院大学, 文学部, 准教授 (90468398)
佐野 真一郎 慶應義塾大学, 商学部(日吉), 准教授 (30609615)
|
研究期間 (年度) |
2016-04-01 – 2020-03-31
|
キーワード | コーパス言語学 / 昭和話し言葉コーパス / 経年変化 / コーパス / 話し言葉 / 言語学 / コーパス日本語学 / 話し言葉コーパス |
研究実績の概要 |
(1)「昭和話し言葉コーパス」の構築: 昨年度に作成した独話の音声資料(25時間分)の時間情報付き転記テキストの第一次資料をより精緻化する作業を進めた。特に、フィラー、語断片、転訛などの非流暢性について転記テキスト中にタグを付与したことにより、分析の利便性が格段に向上した。また、各録音資料に対するメタデータ(録音年月日・録音場所・発話者情報(氏名、性別、年齢、肩書など)の記録)の整備とチェックをさらに進め、独話(25時間分)に関するメタデータを完成させた。 音声データ、時間情報付き転記テキスト(TextGrid形式、tsv形式)、メタデータ等をパッケージ化し、「『昭和話し言葉コーパス』モニター公開データ」として一般に公開する準備を進めた。著作権への配慮から、一部のデータは公開を見送ることとし、17時間分のデータをモニター公開の対象として定めた。3月にはウェブ上でモニター公開の告知をし、申し込みの受付を開始した。また、会話の音声資料(25時間分)に対する時間情報付き転記テキストの整備を進めた。次年度は、会話のデータ整備、およびメタデータの作成を進めることとする。 (2) 成果発表: シンポジウム「日常会話コーパス」IV や「通時コーパス」シンポジウム2019において口頭発表・ポスター発表を行ったほか、大阪府立大学、東京外国語大学、フランス国立図書館における招待講演、日本語文法学会における招待発表、フランスオルレアン大学におけるシンポジウムでの研究発表、国立国語研究所「NINJALフォーラム」での口頭発表など、多くの点で成果があった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度の達成度は「やや遅れている」と判断したが、これは当初の想定よりも時間をかけて時間情報付き転記テキストの作成を進めたためであった。昨年度の作業を前提として、今年度の作業は順調に進めることができた。特に、フィラー、語断片、転訛などの非流暢性について転記テキスト中にタグを付与したこと、発音にゆれがあるいくつかの語について正確な発音を記録したことにより、コーパスを検索する際の利便性を向上させることができた。 独話のデータ整備と並行して、会話の音声資料(25時間)について時間情報付き転記テキストの整備を進めたが、音源が話者ごとに分離されておらず、録音レベルが極めて低いため、発話が聞き取れない、発話者が特定できないケースが散見された。この点については、元データとなったオープンリールの箱に残されたメモなどを手掛かりとして、発話者の人数や特性などを推定し、作業を進める必要がある。
|
今後の研究の推進方策 |
平成31年度は、研究計画の最終年度に当たることから、(1) 会話の音声資料(25時間)を対象とした時間情報付き転記テキストの整備、(2) 各種アノテーション(形態論情報、メタデータなど)、(3) 言語学的分析、などの点を推進する。独話データについてはモニター公開がされたが、今後は会話データの整備、および研究成果の公表を進め、プロジェクト全体の総括を行う。『昭和話し言葉コーパス』の本公開にむけて、各種のデータ整備を進めることにしたい。
|