2022 Fiscal Year Research-status Report
Creation and utilization of classification criteria for thesaurus maintenance and extension
Project/Area Number |
19K00655
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 客員教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, 教授 (80379528)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | シソーラス / 分類語彙表 / 分類基準 / オープンデータ |
Outline of Annual Research Achievements |
今年度は以下の作業を行った。 (1)体言(名詞)と用言(動詞)について、分類基準を作成するためにどのような情報が必要かを検討した。体言の場合は、さらに、1.1(抽象関係)、1.2(人間活動の主体)、1.3(人間活動―精神および行為)、1.4(生産物および用具)、1.5(自然物および自然現象)とに分けてそれぞれの特徴を考察した。1.4と1.5は言語外の世界に分類基準が存在するものが多く、それらを参考にするのが効率的である。1.2は固有表現に近いもの(職業、組織等)は体系化されている場合が多いためその情報を活用する。残りの1.1と1.3は言語内的な情報のみを基準とするため、客観的な体系化が難しいことが予想された。 (2)見出し語の増補。昨年度の引き続き、『現代日本語書き言葉均衡コーパス短単位語彙表』にリストされた語で『分類語彙表』に収録されていない語のうち、使用頻度が高い1000語に対して、分類番号を割り当てた。昨年度は頻度の上位1000語を対象としたが、今年度は上位1001番目~3000番目の2000語を対象とした。内訳は、体の類1605語、用の類163語、相の類177語、その他の類34語、未分類21語であった。品詞別(UniDicの品詞)の内訳としては、名詞1657語、接尾辞97語、副詞80語、動詞60語、接頭辞42語、形状詞24語、感動詞23語、形容詞9語、連体詞2語、代名詞1語であった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
具体的に分類基準を文章化するのに予想以上の時間がかかったため。
|
Strategy for Future Research Activity |
分類基準の作成を進めるが、分類項目名で十分にその内容を表していると思われるものは、記述の優先順位を下げる。
|
Causes of Carryover |
代表者が多忙のため、分類基準の具体的な記述にあてる時間がとれなかったため。2023年度は、外注の業者に意味分類に適任の作業者を見つけてもらい、できるだけ効率的に進める。
|
Research Products
(6 results)