2019 Fiscal Year Annual Research Report
話題が語彙・文法・談話ストラテジーに与える影響の解明
Project/Area Number |
18H00676
|
Research Institution | Kyoto University of Education |
Principal Investigator |
中俣 尚己 京都教育大学, 教育学部, 准教授 (00598518)
|
Co-Investigator(Kenkyū-buntansha) |
山内 博之 実践女子大学, 文学部, 教授 (20252942)
橋本 直幸 福岡女子大学, 国際文理学部, 准教授 (30438113)
建石 始 神戸女学院大学, 文学部, 教授 (70469568)
小口 悠紀子 首都大学東京, 人文科学研究科, 助教 (70758268)
小西 円 東京学芸大学, 留学生センター, 准教授 (60460052)
堀内 仁 国際教養大学, 国際教養学部, 准教授 (40566634)
森 篤嗣 京都外国語大学, 外国語学部, 教授 (30407209)
合田 陽子 (太田陽子) 一橋大学, 森有礼高等教育国際流動化機構, 准教授 (20373037)
加藤 恵梨 朝日大学, その他部局等, 講師 (70770311)
澤田 浩子 筑波大学, 人文社会系, 准教授 (70379022)
清水 由貴子 聖心女子大学, 文学部, 講師 (60735851)
山本 和英 長岡技術科学大学, 工学研究科, 准教授 (40359708)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 話題 / 話題領域 / 会話コーパス / 形態素解析 / 固定長コーパス |
Outline of Annual Research Achievements |
新規コーパス構築班では、2019年11月までに全120ペアの録音を完了した。音声データは文字起こし業者に送付し、2020年3月に第1次文字データが納品された。その後、2020年度に向けてマスキングなどの作業方針を確定していった。 既存コーパス分析班では『名大会話コーパス』の話題分割作業を実施した。複数回対面による作業を設け、すべてのターンに対して104種類の話題タグの中から一つを付与することに成功した。その後、機械的分析版がコーパス全文を話題ごとに分割し、形態素解析を行った。 結果の記述統計から最も多い話題は「食」であることなどがわかった。また、ある話題に移ってから終わるまでの平均語数を計算すると、「話し始めると長くなる」話題がわかる。「出産」「結婚」「育児」「医療」などライフステージにかかわる話題は長く、前述の「食」は頻繁に出現するものの、長さは短いことがわかった。「食」は日本語教育の初級むきの話題であると言える。 さらに、「隣接した話題タグは類似している」という仮説の元、話題バイグラムを作成した。例えば、「旅行」の話題の後、「食」の話題になれば、「旅行―食」というデータになる。約3,400のデータを元にネットワーク分析を行った結果はまさに129の会話から構成される『名大会話コーパス』の内容の要約・可視化と呼ぶのにふさわしいものであった。また、ヒトの会話の話題にはたかだか9から10の領域があり、例えば「仕事・専門」の領域の内容は個人によって異なるとしても、「仕事・専門」という領域があるということは個人間で共通しているのではないかという知見が得られた。話題分割のプロセスについては、言語処理学会(オンライン開催)で発表を行った。2020度にはさらに成果について発表を行う。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
新規コーパス構築作業においては、文字化の完了までが目標であったが、記号で表される話者の同定の作業なども先行して行うことができた。 既存コーパス分割においては、作業完了後、話題をまとめる作業を行った。これは実際には104の話題の話題別特徴語を抽出しても、実用的なものにはならないと考え、ある程度話題をまとめるために行った、いわば準備的な作業であった。しかし、これは人間の話題は本質的に9種類に分けられるという主張と同義であり、今後様々な方面での応用が期待される。これは日本語教育のみならず、「話題」「会話」の輪郭を描き出すことにつながる予想外の成果であり、この内容をまとめて発表していきたい。
|
Strategy for Future Research Activity |
新規コーパス構築班の本年度の目標は『日本語話題別会話コーパス J-TOCC』の完成・公開である。2020年5月より文字化チェックとマスキングを行う。その後、分担者による二次チェック、代表者による最終チェックと話者符号割当を行い、ホームページを作成して公開を行う。公開は当初は2021年3月を予定していたが、予定より順調に進んでおり、2020年12月公開を目指していきたい。また最終チェック完了時点で関係者にはデータを配布し、本年度の後半は分析に取り掛かりたい。 既存コーパス分割班については、話題分割のプロセスと、話題バイグラム法によって得られた話題領域に関する知見をまとめ、8月に『日本語教育』の特集論文として応募する予定である。その他、多変量解析を用いた話題のクラスター化も合わせて実施する。本年度の後半は、大話題領域あるいは細かい話題ごとの話題別特徴語を抽出する。また、大話題ごとに分割したコーパスを研究チーム内で共有し、分析を行っていく。 なお、全体ミーティングは2020年6月8日に実施、今後の方針を決定する。
|
Research Products
(3 results)