研究課題/領域番号 |
18H00676
|
研究機関 | 京都教育大学 |
研究代表者 |
中俣 尚己 京都教育大学, 教育学部, 准教授 (00598518)
|
研究分担者 |
山内 博之 実践女子大学, 文学部, 教授 (20252942)
橋本 直幸 福岡女子大学, 国際文理学部, 准教授 (30438113)
建石 始 神戸女学院大学, 文学部, 教授 (70469568)
小口 悠紀子 広島市立大学, 国際学部, 講師 (70758268)
小西 円 東京学芸大学, 留学生センター, 准教授 (60460052)
堀内 仁 国際教養大学, 国際教養学部, 准教授 (40566634)
森 篤嗣 京都外国語大学, 外国語学部, 教授 (30407209)
太田 陽子 一橋大学, 森有礼高等教育国際流動化機構, 准教授 (20373037)
加藤 恵梨 大手前大学, 現代社会学部, 講師 (70770311)
澤田 浩子 筑波大学, 人文社会系, 准教授 (70379022)
清水 由貴子 聖心女子大学, 現代教養学部, 講師 (60735851)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 話題別コーパス / 知悉度 / 会話コーパス / アノテーション / 語彙表 / 日本語教育 / 自然言語処理 |
研究実績の概要 |
2020年度は既存コーパス分割班は「日本語話題別語彙表」を、新規コーパス構築班は「日本語話題別会話コーパス:J-TOCC」を完成させ、公開を行った。 まず、既存コーパス分割班では、「名大会話コーパス」を人手で話題に分割したアノテーションデータを2020年5月に言語資源協会で公開した。これは名大会話コーパスと組み合わせて初めて意味をなすデータで、自然言語処理の専門家のためのものである。また、その副産物として話題についてのネットワーク分析を研究会で報告した。その後、分割したコーパスを基に話題別語彙表を作成した。これは3,347語に対して97の話題についての特徴度を記したものであり、多くの語とそれが使われる話題の関係を明らかにするものである。その成果はまず2020年12月の「第11回日本語実用言語学国際会議」で発表し、2021年2月に代表者のウェブサイトで「話題別日本語語彙表」として、Excel形式での配布を開始した。この語彙表の有用性について論文も執筆し、現在学会誌において査読中である。 次に、新規コーパス構築班では文字起こしされたデータに対してマスキングの作業を行った。その後、細かな修正を行いつつ、まず2020年12月の「第11回日本語実用言語学国際会議」で発表した。そこで得られた意見を基にフォーマットを再調整し、2021年2月に代表者のウェブサイトで「日本語話題別会話コーパス:J-TOCC」として配布を開始した。こちらはテキスト形式であるが、利用規約に同意する必要がある。また、このコーパスの解説論文も執筆し、2021年7月発行の『計量国語学』に掲載が決定している。 さらに、本科研の成果を活かした単語帳の作成にも取り掛かり、2021年度中に第一弾を発行予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究は語彙・文法・談話ストラテジーと話題の関係を明らかにするものであるが、まず既存会話コーパス班で作成した「日本語話題別語彙表」は当初の想定を超えて、語と話題が密接に結びついていることをわかりやすく示すことができた。これは97話題の情報が記載されている。一見、いささか多いようにも見えるが、例えば「ハンサム」はこの97話題の中で「映画・演劇」の話題にのみ出現し、「友人」「恋愛」などにも出現する「かっこいい」とはその点で異なるといった情報はまさに「ハンサム」と「かっこいい」の言葉では説明しにくい意味の違いを雄弁に説明するものである。当初は97話題をまとめる方法を模索していたが、むしろまとめない形の表の方が得られる情報は大きいと考え、そのまま公開することにした。この表は「話題から語彙を探す」「語から話題を調べる」の両方向に活用でき、日本語教育への寄与は非常に大きい。 さらに新規コーパス「J-TOCC」からも同様の情報が得られたため、当初は基礎研究を踏まえてから教育への応用を考えていたが、これらのデータベースを直接教育に応用できると判断し、話題をベースにした単語帳の作成を開始した。 また、J-TOCCについても、発表後に付随データである「話題別知悉度」に注目が集まった。話者がその話題についてどれだけ詳しいかを示すデータであるが、他のコーパスにはない唯一無二のデータであり、「知識」と「発話」の関係を見ることができるものである。今後の研究の進展が期待できる。
|
今後の研究の推進方策 |
2021年度は構築された2種のデータベースを活用し、分担者がそれぞれ独自にテーマを定め、研究を行い、年度末のシンポジウムで発表する。なお、シンポの内容を論文集として出版することも検討する。 語彙と話題の関係についてはすでに「日本語話題別語彙表」などで直接的な関係は表示されている。語彙は数も膨大であるため、半ば機械的に処理を行い、単語帳などの作成を行う。 一方で、文法や談話ストラテジーについては機械的に処理を行うことはできない。この領域こそ、本プロジェクトに集まった研究者がその専門性を十分に発揮し、じっくりと取り組むべきテーマである。特に文法と話題の関係は想定以上に大きく、コーパス完成後すぐに行った簡単な調査からも「アスペクト形式はポップカルチャーの話題に多い」「格助詞は硬い話題ほど出現する」「間投助詞「さ」が硬い話題ほど出現する」「これらは方言差よりも話題差のほうが大きい」など、これまで全く意識されていなかったような新たな事実が明らかになっている。これらについて、さらにその要因を考察するとともに、「話題知悉度と構造の複雑性の関係」「話題と感動詞」「話題と談話構造」「話題と無生物主語」「話題と難易度」「話題知悉度と談話マーカー」など様々な角度からデータベースを分析し、発表していく。
|