研究課題/領域番号 |
18K00723
|
研究機関 | 愛知淑徳大学 |
研究代表者 |
山本 裕子 愛知淑徳大学, 交流文化学部, 教授 (20410657)
|
研究分担者 |
川村 よし子 東京国際大学, 言語コミュニケーション学部, 教授 (40214704)
小森 早江子 中部大学, 人文学部, 教授 (60221248)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | マルチコーパスシステム / ウェブアプリケーション / オリジナルデータ / 平易な操作性 / タグ / タグ検索 |
研究実績の概要 |
本研究は研究者が自らの関心に基づいて収集したオリジナルデータをコーパス化して分析できるマルチコーパスシステムCo-Chuを開発し、コンピューターが苦手な研究者や日本語教師であっても目的に応じたコーパス分析が容易にできる環境の構築を目指している。 2018年度はデータ収集、整備、システム開発と運用実験を中心に行った。本研究では、様々なジャンルのテキストを分析できるシステムの開発を目指しているため、本年度は、日本語学習者、母語話者の作文データ、日本語学習者と日本語母語話者の会話データ、アニメデータ等の収集を行った。収集したデータは、順次システムに取り込めるよう形式を整える作業を進めている。また、準備の整ったデータから順次Co-Chuに取り込み、解析、分析の運用実験をはじめた。これまでに、ラニガン他(2018)で、タグ付けが可能なシステム開発の概要を、また、山本他(2018a)でアニメデータの取り込みと分析、および得られた結果の一部を発表した。 話し言葉や誤用を含んだテキストを形態素解析にかけると、様々な誤解析が生じる。これを解消するために、データにタグ付けをし、正しい語形を示すことで、適切な形態素解析ができる仕組みを整えた。どのようなタグ付けが有効か、タグ付けが解析結果にどの程度の影響があるか等について、日本語母語話者と学習者の会話データを用いて運用実験を行った。その結果、タグ付けだけでは解消できないタイプの誤解析もあり、解決するためにどのような機能が必要であるかが明確になった。この運用実験については、山本他(2018b)で報告した。 現在、上記の問題点への対応を目指しシステムの改良を進めている。また、会話だけでなく、作文など他のジャンルのデータに関しても、データの特徴に応じたタグ付けの方法を研究し、分析方法を提案できるよう運用実験を進めているところである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2018年度は、研究の遂行に必要な基礎的データの収集を行った。アニメ、会話、作文とジャンルが異なるデータについて、運用実験を進めるために必要な規模での収集が概ねできている。また、タグ付けによって、形態素解析を適切に行えるようシステムの改良を進め、運用実験を行うこともできた。このように、文字化を含むデータの整備、システム開発、運用実験のペースとしては概ね順調に進んでいると言える。
|
今後の研究の推進方策 |
収集したジャンルの異なるデータを用いた運用実験を行う。その際、書き言葉と話し言葉ではデータの形態が異なるため、データの特徴に応じたタグ付けの方法を研究し、分析方法を確立できるようにする。運用実験をしながら、現在のシステムでできる検索の限界を見極め、検索機能の拡充として何が必要であるか検討する。また、運用実験を通して得られた研究成果を学会で発表する予定である。 これらを踏まえ、公開用システムの仕様を検討し、システムの開発を進めていく。
|
次年度使用額が生じた理由 |
物品の購入や旅費、謝金等概ね計画通りに使用したが、わずかに剰余した。剰余分は次年度経費に繰り越すこととする。 次年度経費は、研究成果発表や研究協力者の招聘のための旅費、システム開発やデータ整理の人件費を中心に使用する予定である。
|