2018 Fiscal Year Annual Research Report
Expansion of corpus by annotating speaker's information to conversation sentences
Project/Area Number |
15H03212
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
茂木 俊伸 熊本大学, 大学院人文社会科学研究部(文), 准教授 (20392540)
柏野 和佳子 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 准教授 (50311147)
高崎 みどり お茶の水女子大学, 名誉教授 (60096237)
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
清水 まさ子 日本女子大学, 文学部, 研究員 (80649468)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 会話文 / 話者情報 / コーパス / 擬似的話し言葉 / 役割語 |
Outline of Annual Research Achievements |
1.コーパスへの話者情報付与作業 ひきつづき話者情報の付与の本作業を行い,図書館サブコーパスの日本文学,英米文学に対する情報付与作業を進めた.話者情報を付与したサンプル数は,2557サンプルで,これは対象とする図書館サブコーパスの小説の全体(2668サンプル)の約96%にあたる。これらのサンプルには,話者名,話者の性別(男,女),話者の年代(若年層(~19歳),成年層(20~59歳),老年層(60歳以上)の情報を付与した.そのうち約半数のサンプルには会話の相手の話者名および話者の身分・職業の情報も付与した.また,将来的にオンライン検索ツールである「中納言」に搭載できるよう,データの仕様を検討した。 2.話者情報を利用した研究としては,昨年度に引き続き以下の研究を行った。(1)小説の地の文と会話文との語彙的な比較では,会話文には名詞の割合が低く,代名詞の割合が高いことが分かった。また,数値的には小さいものの,会話文では地の文に比べて感動詞の割合が10倍以上あったことが特徴的である。(2)翻訳小説(外国語から日本語に翻訳した小説)と日本語小説(もともと日本語で書かれた小説)の会話文の違いとしては,日本語小説の方が1サンプル当たりの会話の分量が多いことが分かった。また,対数尤度比(LLR)による特徴語を分析すると,日本語小説には「さん」「さま」「先生」「ちゃん」「君(くん)」などの人につく接尾辞や名詞が有意に多かったのに対し,翻訳小説では,「彼」「私」「君(きみ)」「あなた」などの人称代名詞や「イエス」「イギリス」」「マイケル」などの固有名詞が有意に多かった。 3.実際の話し言葉と擬似的な話し言葉の比較では,代名詞の「あれ」が話し言葉に多く,その用法も現場文脈指示が少なく,言語文脈指示や記憶文脈指示の2用法が中心であることが分かった。
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
Research Products
(12 results)