研究課題/領域番号 |
19K00655
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 客員教授 (30182489)
|
研究分担者 |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, 教授 (80379528)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | シソーラス / 分類語彙表 / 分類基準 / オープンデータ / 分類語違表 / 意味分類の基準 |
研究開始時の研究の概要 |
本研究は,日本語研究でもっとも活用されているシソーラスである『分類語彙表増補改訂版』(以下,『分類語彙表』)を将来にわたって効率的に整備・拡張できるように,現在,「暗黙知」の状態になっている分類基準を明示的に記述した「分類基準」を作成し,それに基づいて『分類語彙表』に未収録の新語や新用法等を増補した『分類彙表ver.2.0』作成することを目的とする。併せて,各見出し語に対して文体情報や頻度情報等の情報も付与し,日本語研究でのより一層の活用を目指す。「分類基準」および『分類語彙表ver.2.0』は誰でも自由に利用できるオープンデータとして公開する。
|
研究実績の概要 |
今年度は以下の作業を行った。 (1)体言(名詞)と用言(動詞)について、分類基準を作成するためにどのような情報が必要かを検討した。体言の場合は、さらに、1.1(抽象関係)、1.2(人間活動の主体)、1.3(人間活動―精神および行為)、1.4(生産物および用具)、1.5(自然物および自然現象)とに分けてそれぞれの特徴を考察した。1.4と1.5は言語外の世界に分類基準が存在するものが多く、それらを参考にするのが効率的である。1.2は固有表現に近いもの(職業、組織等)は体系化されている場合が多いためその情報を活用する。残りの1.1と1.3は言語内的な情報のみを基準とするため、客観的な体系化が難しいことが予想された。 (2)見出し語の増補。昨年度の引き続き、『現代日本語書き言葉均衡コーパス短単位語彙表』にリストされた語で『分類語彙表』に収録されていない語のうち、使用頻度が高い1000語に対して、分類番号を割り当てた。昨年度は頻度の上位1000語を対象としたが、今年度は上位1001番目~3000番目の2000語を対象とした。内訳は、体の類1605語、用の類163語、相の類177語、その他の類34語、未分類21語であった。品詞別(UniDicの品詞)の内訳としては、名詞1657語、接尾辞97語、副詞80語、動詞60語、接頭辞42語、形状詞24語、感動詞23語、形容詞9語、連体詞2語、代名詞1語であった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
具体的に分類基準を文章化するのに予想以上の時間がかかったため。
|
今後の研究の推進方策 |
分類基準の作成を進めるが、分類項目名で十分にその内容を表していると思われるものは、記述の優先順位を下げる。
|