2023 Fiscal Year Research-status Report
Development of intergrated japanese lexical database for automation of learning coordination
Project/Area Number |
23K17595
|
Research Institution | Okayama University |
Principal Investigator |
呂 建輝 岡山大学, 社会文化科学学域, 特任助教 (20803737)
|
Co-Investigator(Kenkyū-buntansha) |
片山 鮎子 沖縄工業高等専門学校, 総合科学科, 講師 (40850087)
|
Project Period (FY) |
2023-06-30 – 2026-03-31
|
Keywords | ラーニングコーディネーション / 教育システム開発 / 語彙学習 / 日本語語彙データベース / 分野横断的教育 |
Outline of Annual Research Achievements |
本研究では、AIによる日本語語彙学習支援の実現に向けて、日本語語彙データベースの整備を行っている。フェーズ1(3ヶ月)では、収録すべき語彙を網羅し、フェーズ2(18ヶ月)では、各語彙データベースにある語彙情報はそれを引用し、足りない情報は補足作業を行う。フェーズ3(9ヶ月)では、本語彙データベースを日本語語彙学習システムに実装し、効果検証を行う。 昨年度の研究においては、次に掲げるいくつか当初予期していなかったことが起こった。 (1) 版権等の関係で、現行データベース・辞書から引用(公開)できる情報が限られていた。引用できる情報が少なくなったため、その分語彙情報の入力作業が増える。 (2) 現行データベースには誤脱が多く、一度標準化作業をしておかないとそのままでは使用できない。この作業のために予想以上に時間を費やした。 (3) 現行データベースは、「語彙」としての認定基準が曖昧であるため、収録語をすべて語彙として認定してよいかどうかの問題が発生し、あらかじめ方針を定める必要があった。 (4) 本研究ではできるだけ多くの語彙を収録しようと考えていた。しかし専門用語や固有名詞などを入れようとすると、網羅できる語彙数が膨大すぎるという問題が発生した。 そこで、以下「現在までの進捗状況」「今後の研究の推進方策」で詳述する路線変更をした。2024年5月現在、計122,374語が集められ、フェーズ2の作業に着手できている。 昨年度は10月から研究スタートで、かつ主にデータベース構築作業に取り掛かっていたこともあり、研究成果発信活動は学会発表2回(うち国際招待講演1回)にとどまった。しかしこの発表では、大学等日本語教育関連団体3組から教育実践の協力をいただけるとの協定を結ぶことができ、本研究フェーズ3で行う予定の効果検証の準備ができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」で述べたように、昨年度の研究においては、当初予期していなかったことが起こった。これらの問題を解決するため、本研究を推進する方針を次のように変更した。現行の語彙データベースに足りていない表記・読みの情報を補い、まず複数のデータベース間の語彙同定作業を行い、統合型語彙データベースの骨格を構築した。これをオープン型のデータベースにして、専門用語や固有名詞など本データベースにない語彙は後に追加できるようにし、本データベースにある死語や、語彙として認定できない見出し語は後に削除できるようにした。この追加・削除作業は一部令和6年度の作業とし、その他、教育システムより得られるフィードバックに基づき今後継続的に追加・削除できるようにする。 当初より少し方針転換をしたとはいえ、現行データベースに基づいた語彙網羅作業(フェーズ1)が終わり、現在語彙情報の補足作業(フェーズ2)に着手できていることから、本研究はおおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
「研究実績の概要」で述べたように、昨年度において当初予期していなかったことが起こった。それらの問題を解決するため、今後の研究に向けて以下のように推進方策を定めた。 (1) データ入力作業が予想より大幅に増えたため、効率的に入力作業が行えるデータ入力ツールを開発する。 (2) (1)の入力ツールを使い、現行データベースを基に構築した統合型語彙データベースの骨格にさらに専門用語、固有名詞類を追加する。 (3) その他、語彙情報の補足作業は予定通りに行うとする。但し、日本語教育に不必要な語彙(死語、語彙として認定できない語形など)は削除する。 なお、昨年度中はデータベース構築作業に時間がかかり、研究成果の情報発信活動が少なかった。本年度は学会発表、論文投稿等、本研究で得られた成果を積極的に発信していきたい。
|
Causes of Carryover |
前述した当初予期していなかったことが起こり、方針転換をしたため、一部辞書購入の予定を見送ることになった。その代わりに、データ入力作業が増えたため、研究代表者の分は機材の購入代や人件費に充て、研究分担者の分は次年度へ繰り越すことにした。
|