2017 Fiscal Year Annual Research Report
Expansion of corpus by annotating speaker's information to conversation sentences
Project/Area Number |
15H03212
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
茂木 俊伸 熊本大学, 大学院人文社会科学研究部(文), 准教授 (20392540)
柏野 和佳子 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 准教授 (50311147)
高崎 みどり お茶の水女子大学, 名誉教授 (60096237)
金 明哲 同志社大学, 文化情報学部, 教授 (60275469)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 会話文 / 話者情報 / コーパス / 擬似的話し言葉 / 役割語 |
Outline of Annual Research Achievements |
1.話者情報の付与は,昨年度の対象の絞り込みに従って,『現代日本語書き言葉均衡コーパス』の図書館サブコーパスにおける小説・物語に対して引き続き実施した。対象は全部で2688サンプルであるが,そのうち,2366サンプル(約88%)に対して話者情報の付与が完了している。残り322サンプルのうち,情報を付与すべき会話がないサンプルが100程度あるため,残りは200サンプル程度と見積もられる。そこで,すでに付与した話者情報の見直しを進めるとともに,話者の「職業」や誰に対して話しているかとう「相手」の情報も付与することにした。何を発話とするかについて,ポスター発表を行った。 2.話者情報を利用した研究としては,(1)レジスターや位相の違いによる会話文の語彙的多様性の記述,(2)外国語翻訳小説と日本語小説の会話文を計量語彙論的な比較,(3)小説における会話文体の基本パターンと性別・年齢層による変化についてそれぞれ発表を行った。 3.データ共有化の準備としては,2017年末にそれまでにできている部分をウェブ上で限定公開した。話者情報の種類としては,「原文,話者名,性別,年代,人間外の話者の情報,会話モード(通常の会話でない場合),職業,相手」等であり,利用者の利便性を考慮し,次の4種類のデータを公開した。1つは,テキストベースのもので会話以外の文脈表示され,可読性を高めたもの,2つめはそれをエクセルに読み込んだもの,3つめは,会話部分のみを短単位に分割してそれぞれに話者情報を付与したもの,4つめは,それをSQL形式に変換してSQLiteで扱えるようにしたものである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
対象を限定したことから残りのサンプル数が少なくなり,より精緻な情報を付ける方向に転換したため。
|
Strategy for Future Research Activity |
最終的にはウェブ上のインターフェイスに取り込み,検索結果に話者情報を表示することを考えている。インターフェイスへの取り込みはやや時間がかかるため,話者情報の付与は年度のなかごろには終えていることが望ましいと考えている。
|
Research Products
(7 results)