2016 Fiscal Year Annual Research Report
Expansion of corpus by annotating speaker's information to conversation sentences
Project/Area Number |
15H03212
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系言語変化研究領域, 教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
柏野 和佳子 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系音声言語研究領域, 准教授 (50311147)
茂木 俊伸 熊本大学, 文学部, 准教授 (20392540)
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
高崎 みどり お茶の水女子大学, 理事・副学長 (60096237)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | コーパス / 会話文 / 話者属性 / 小説 |
Outline of Annual Research Achievements |
1.「話者情報付与の対象の再検討」 作業対象の優先順位話者を決めた。優先順位の高いものは,NDC(日本十進分類法)で言うと,「913(日本文学:小説・物語)」と「933(英米文学:小説・物語)」である。ファイル数は前者は4063,後者は850である。小説というジャンルは話者が多様な属性を示し,かつ,作者の属性との関連も分析できる点でもっとも優先すべきであると考えた。ただ,登場人物のすべての性別,年代が特定できるわけではないため,マニュアルを整備し,作業上のゆれが発生しないようにした。次に優先順位が高いのが,「914(日本文学:評論・エッセイ・随筆)」でファイル数は412である。上記3ジャンルでNDC9番台「文学」の約85%を占める。話者情報作業の実際については,2017年3月に2回ポスター発表を行った。2017年3月末の時点で2228ファイルについて話者情報付与が終了した。なお,一部のファイルについて,話者の「職業」や誰に対して話しているか,「相手」の情報も付与する試みを開始した。
2.「他のコーパスとの比較」日本語話し言葉コーパス(CSJ)の学会講演と摸擬講演,名大会話コーパス,と作業中の小説会話文のデータを対象にして,形態論情報を使って分析を行った。その結果,品詞の分布,高頻度語において違いが見られた。また,LLR(対数尤度比)による特徴語の抽出を行った。話者の性別(男,女)と年代(若年層,成年層,老年層)の属性による違いとしては,フィラー,人称代名詞,終助詞などにレジスター差が見られた。
3.「データ共有化の準備」多様な分析に対応するため,発話単位,短単位,語彙素の3つのタイプのデータの仕様を検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
作業対象の優先順位を付けたことによって,目標を定めやすくなった。優先順位が高い,小説のファイルに話者情報が付与されれば目的はほぼ達成されると考えられる。
|
Strategy for Future Research Activity |
1.作業の進捗状況を見計らい,作業対象ファイル数を増やしていくか,それとも,新たな属性(職業,相手)を付与していくかを検討する必要がある。比較を行う他の話し言葉コーパスの属性とも照らし合わせて検討する。
2.作業ファイルの仕様を途中で2度変更したため,新ファイルと旧ファイルの統合が進んでいない。一部手作業が入る可能性もあり,その部分の進捗が懸念される。
|