2020 Fiscal Year Research-status Report
Creation and utilization of classification criteria for thesaurus maintenance and extension
Project/Area Number |
19K00655
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | シソーラス / 分類語違表 / 分類基準 / オープンデータ |
Outline of Annual Research Achievements |
(1)『分類語彙表』の体系の見直しのための基本的な考えを整理した。現在の『分類語彙表』には、体系上の制約から番号を付与出来ない語がある。代表的なものは助詞・助動詞などの機能語である。機能語は複合辞を含めるとかなりの量になり、分類項目として適切に位置付ける必要がある。また、多くの固有名詞が収録されていないが、固有名詞を収録するとしたら、どのような処置が適切かなどを検討した。結果は、言語資源活用ワークショップ2020で発表した。(2)分類項目間の重複について。見出しと読みが一致するものを同語と考え、どの2つ分類項目によく現れるかを調査したところ、10語以上が重複する分類項目のペアが78組見つかった。これらのうち、どちらかの収録語をけずっても問題ないものがあるかを検討した。(3)語種情報の付与。見出し語9181項目に語種(和語、漢語、外来語、混種語、固有名詞、記号)の情報を付与した。一部の語は、「分類語彙表-LemmaID対応表」により、形態素解析用電子辞書UniDicの形態論情報の語種が付与できるが、『分類語彙表』には、UniDicには含まれていない長単位(以上)の語および慣用句があり、それらにも語種を付与した。(4)文体情報のための特徴語の情報を整理した。『現代日本語書き言葉均衡コーパス』、『日本語話し言葉コーパス』、『日本語日常会話コーパス』のコーパスを対象に、内山将夫他(2004)「英語教育のための分野特徴単語の選定尺度の比較」「自然言語処理」11(3),165-197で挙げられている、8つの指標(対数尤度比(LLR)、χ2値(Chi2)、イエーツ補正χ2値(Yates)、自己相互情報量(PMI)、コサイン(Cosine)、Dice係数(Dice)、補完類似度(CSM))を算出した。(5)昨年に引き続き、新語・新用法を近年発行された辞書等から抽出した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
複数の作業を同時並行で行ったため、それぞれが中途半端な状態になったため。また、研究発表の数が少なかったため。
|
Strategy for Future Research Activity |
重点的に進める内容としては、新語・新用法の追加、および、意味的な差異が小さいと思われる項目について、どのような違いがあるか、場合によっては項目の整理も含めて検討することの2点である。
|
Causes of Carryover |
情報付与作業を複数行う予定であったが、作業者の都合が付かず、発注を見送ったものがあったため。2021年度は、早い段階で作業の発注を行う。
|
Research Products
(2 results)