Creation and utilization of classification criteria for thesaurus maintenance and extension
Project/Area Number |
19K00655
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 客員教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (40623004)
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, 教授 (80379528)
|
Project Period (FY) |
2019-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2020: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | シソーラス / 分類語彙表 / 分類基準 / 多義語 / オープンデータ / 分類語違表 / 意味分類の基準 |
Outline of Research at the Start |
本研究は,日本語研究でもっとも活用されているシソーラスである『分類語彙表増補改訂版』(以下,『分類語彙表』)を将来にわたって効率的に整備・拡張できるように,現在,「暗黙知」の状態になっている分類基準を明示的に記述した「分類基準」を作成し,それに基づいて『分類語彙表』に未収録の新語や新用法等を増補した『分類彙表ver.2.0』作成することを目的とする。併せて,各見出し語に対して文体情報や頻度情報等の情報も付与し,日本語研究でのより一層の活用を目指す。「分類基準」および『分類語彙表ver.2.0』は誰でも自由に利用できるオープンデータとして公開する。
|
Outline of Annual Research Achievements |
今年度は以下の2点について作業・考察を行った。 (1)分類語彙表増補改訂版(以下、分類語彙表)へ増補する候補語の特徴の記述 昨年度までに「分類語彙表」と「現代日本語書き言葉均衡コーパス短単位語彙表」とをマッチングした結果、一致しなかった(=分類語彙表に掲載されていない)上位3000語について分類番号付与を行った。今年度はその3000語についてどのような特徴があるかを分析した。以下に結果を示す。 (a)分類番号が付けられた語が2979語、付けられなかった語が121語あった。分類番号が付けられなかった121語の多くは誤解析であり、後の一部が取り出されたものであった。 (b)分類番号が付いたもののうち、目立ったのは漢字一字の接辞である。これについては、国立国語研究所(1994)所収の「分類学習漢字表」を一括して増補の対象とすることが考えられる。 (c)分類番号が付いたもの中では、外来語が907語、とくに「ブログ」「ブラウザ」「インストール「フォルダ」などのウェブやコンピュータ関連の語が目立つ。 (2)多義語の掲載状況の確認 「分類語彙表」では初版と比べて、多義語を大幅に増補したと記述されている(P.6)。しかし、現代の小型国語辞書に掲載されている多義語と比べると、「分類語彙表」の多義語は掲出されている分類項目が少ないものがあることが分かった。具体的には「切る」は『三省堂国語辞典』(第八版)では動詞の意味が27個、造語成分としての意味が3個あるが、これら30個の意味を「分類語彙表」と対照させると、単独の見出しがあるものが3個、「スイッチを切る」のように連語として見出しがあるものが6個で、計9個しか対応していなかった。残りの21個は、単独の見出しで掲出できそうなもの15個、連語として掲出できそうなもの6個であった。今後、多義語を見直す際は、できるだけ細かい多義の区別行っている辞書の参照が必要であることが示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
代表者が一時的に健康を害したことにより、作業の進捗が遅れたため。
|
Strategy for Future Research Activity |
昨年と同様である、分類項目名だけで十分にその内容を表していると思われるものについてはは、記述の優先順位を下げるように、他の分類項目と紛れやすいものを優先する。
例えば,分類項目1.1330「性質」と1.3420「人柄」の間には、「品性」「人間性」「性情」など18語が共通しているが、1.1330「性質」は「1.1抽象的関係」に属しているため、この「性質」は物の性質に限定することが望ましく、人の性質に関しては「1.3人間活動-精神及び行為」に属する1.3420「人柄」の方にのみ掲出すべきである、というような具体的な記述を進める。
|
Report
(5 results)
Research Products
(21 results)