Creation and utilization of classification criteria for thesaurus maintenance and extension
Project/Area Number |
19K00655
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 客員教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, 教授 (80379528)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2020: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | シソーラス / 分類語彙表 / 分類基準 / オープンデータ / 分類語違表 / 意味分類の基準 |
Outline of Research at the Start |
本研究は,日本語研究でもっとも活用されているシソーラスである『分類語彙表増補改訂版』(以下,『分類語彙表』)を将来にわたって効率的に整備・拡張できるように,現在,「暗黙知」の状態になっている分類基準を明示的に記述した「分類基準」を作成し,それに基づいて『分類語彙表』に未収録の新語や新用法等を増補した『分類彙表ver.2.0』作成することを目的とする。併せて,各見出し語に対して文体情報や頻度情報等の情報も付与し,日本語研究でのより一層の活用を目指す。「分類基準」および『分類語彙表ver.2.0』は誰でも自由に利用できるオープンデータとして公開する。
|
Outline of Annual Research Achievements |
今年度は以下の作業を行った。 (1)体言(名詞)と用言(動詞)について、分類基準を作成するためにどのような情報が必要かを検討した。体言の場合は、さらに、1.1(抽象関係)、1.2(人間活動の主体)、1.3(人間活動―精神および行為)、1.4(生産物および用具)、1.5(自然物および自然現象)とに分けてそれぞれの特徴を考察した。1.4と1.5は言語外の世界に分類基準が存在するものが多く、それらを参考にするのが効率的である。1.2は固有表現に近いもの(職業、組織等)は体系化されている場合が多いためその情報を活用する。残りの1.1と1.3は言語内的な情報のみを基準とするため、客観的な体系化が難しいことが予想された。 (2)見出し語の増補。昨年度の引き続き、『現代日本語書き言葉均衡コーパス短単位語彙表』にリストされた語で『分類語彙表』に収録されていない語のうち、使用頻度が高い1000語に対して、分類番号を割り当てた。昨年度は頻度の上位1000語を対象としたが、今年度は上位1001番目~3000番目の2000語を対象とした。内訳は、体の類1605語、用の類163語、相の類177語、その他の類34語、未分類21語であった。品詞別(UniDicの品詞)の内訳としては、名詞1657語、接尾辞97語、副詞80語、動詞60語、接頭辞42語、形状詞24語、感動詞23語、形容詞9語、連体詞2語、代名詞1語であった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
具体的に分類基準を文章化するのに予想以上の時間がかかったため。
|
Strategy for Future Research Activity |
分類基準の作成を進めるが、分類項目名で十分にその内容を表していると思われるものは、記述の優先順位を下げる。
|
Report
(4 results)
Research Products
(18 results)