2021 Fiscal Year Research-status Report
Creation and utilization of classification criteria for thesaurus maintenance and extension
Project/Area Number |
19K00655
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | シソーラス / 分類語彙表 / 分類基準 / オープンデータ |
Outline of Annual Research Achievements |
今年度は以下の3点を行った。 (1)分類基準を作成するにあたって,どのような分類項目について分類基準が必要なのかについて調査した。調査方法は,分類項目と他の分類項目との重複の度合いである(重複の度合いは共通して出現する語数で測定する)。『分類語彙表』の895の分類項目について,当該自分自身との組み合わせを除いて,分類項目同士の組み合わせは800130通りあるが,そのうち語が重複して出現しているのは,約3%に当たる24214組あった。そのうち,分類項目に含まれる語数の20%以上が他の(1つの)分類項目と重複しているものが77組あり,この77組が分類基準作成の候補となった。 (2)分類語彙表に足りなかった形態論情報の一つである語種情報の付与を行った。作業は,『分類語彙表増補改訂版データベース』の各見出し語に対して,和語,漢語,外来語などの情報を付与した。見出し語のうち,形態素解析用辞書UniDicと対応が取れるものについては,UniDicの語種を利用したものが多い。また,語種の量的な割合と分類語彙表の部門や項目について語彙論的な分析を行い,計量言語学会第65回大会(2021年9月18日)で発表した。発表の際の資料はオンラインで公開した。 (3)見出し語の増補。『現代日本語書き言葉均衡コーパス短単位語彙表』にリストされた語のうち,『分類語彙表』に収録されていない語のうち,使用頻度が高い1000語に対して,分類番号を割り当てた。これらは見直しののち,増補語としてデータベースに組み込む。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
分類基準の作成については,対象とする分類項目が多いことから,その絞り込みを検討していた。結果的に分類語彙表内で他の分類項目との重複の度合いが多いものを優先して分類基準の作成を進めることにしたが,その手順に至るまで時間が掛かったため。
|
Strategy for Future Research Activity |
分類基準の作成を進めるが,他の項目との重複がないものを後回しにして効率化を進める。頻度情報は,コーパスとの連携により,コーパスにおける頻度情報を参考にする。また,文体情報は,歴史コーパスにおける頻度と現代語のコーパスとの頻度,あるいは,書き言葉コーパスと日常会話コーパスとの比較を参考に付与する方針である。
|
Causes of Carryover |
分類基準を作成する手順や方針を立てるのが遅れたため。また,情報付与作業に適した作業者がなかなか見つからなかったため。2022年度は,外注による作業を優先して進め,計画的な執行に努める。
|
Research Products
(5 results)