2015 Fiscal Year Annual Research Report
Project/Area Number |
15H03212
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系言語変化研究領域, 教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
柏野 和佳子 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系音声言語研究領域, 准教授 (50311147)
茂木 俊伸 熊本大学, 文学部, 准教授 (20392540)
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
高崎 みどり お茶の水女子大学, その他部局等, 理事 (60096237)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | コーパス / 会話文 / 話者属性 |
Outline of Annual Research Achievements |
本年度は4年間の作業全体の計画および話者情報の仕様を固めた。 1.作業対象である『現代日本語書き言葉均衡コーパス』(以下、BCCWJ)全体における会話文の箇所の算定を行った。BCCWJには会話(の候補)を表す<speech>および<quote>というタグがあるが、その数は、<speech>タグが354,989箇所(10,947サンプル)<quote>タグが445,796箇所(24,150サンプル)であった。これらの中から会話情報として意味のあるレジスターであるLB(図書館書籍)、PB(出版書籍)、OB(ベストセラー)についてまず作業を開始することにした。これらの3つのレジスターにおいて、<speech>は313,855箇所(9501サンプル)、<quote>は、356,445箇所(18,704サンプル)であり、箇所およびサンプル数のいずれにおいても全体の8割程度を占める。当面は上記3レジスターを作業対象とする。 2.話者情報の仕様の設計 試行作業を経て、効率的に作業が行える仕様として、各会話箇所に対して以下の属性に対する値を付与することにした。「話者名」(話し手の名前、不明の場合は適宜名称を与える)、性別(男、女、不明)、年代(若年層(0~19歳)、成年層(20~59歳)、老年層(60歳以上)の3分類)、必要に応じて「非人間」(人間以外のものが話している場合)、「会話モード(電話、方言、外国語等)」「職業」「相手」。この仕様で491サンプルに対して情報付与を行った。 3.シナリオの著者調査 映画、テレビドラマ502作品の著者のべ671名について著作権がシナリオ作家協会に委託されているかどうかを調査した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
話者情報の仕様の設計にやや時間がかかったが、作業が進捗するにつれ、おおよその見通しが把握出来るようになった。また、現在、作業と行っている小説というジャンルが話者属性、および、発話の状況が多岐にわたるが、今後着手するエッセイやドキュメンタリー類はそれほど複雑ではないため、進捗が早いと思われる。
|
Strategy for Future Research Activity |
1.現時点で利用できる話し言葉のデータ(「日本語話し言葉コーパス」「名大会話コーパス」等からどのような分析が可能かを検討する。 2.『現代日本語書き言葉均衡コーパス』の会話文の特徴を地の文との比較で明らかにすると同時に、上記の話し言葉コーパスとも統一した基準で比較できるようなデータ作成を目指す。 3.研究期間中に情報付与が目標値に達しない場合、作業対象を『現代日本語書き言葉均衡コーパス』の書籍の小説(NDC900番台)に絞ることを検討する。
|