Project/Area Number |
62210016
|
Research Category |
Grant-in-Aid for Special Project Research
|
Allocation Type | Single-year Grants |
Research Institution | Tenri University |
Principal Investigator |
油谷 幸利 天理大学, 外国語学部・朝鮮学科, 助教授 (50122362)
|
Project Period (FY) |
1987
|
Project Status |
Completed (Fiscal Year 1987)
|
Budget Amount *help |
¥1,500,000 (Direct Cost: ¥1,500,000)
Fiscal Year 1987: ¥1,500,000 (Direct Cost: ¥1,500,000)
|
Keywords | 朝鮮語 / 機械処理 / 語彙調査 / 自動品詞分析 / 用例検索 |
Research Abstract |
1.データの収集 (1)中学校教科書…科学3, 家庭2, 体育1を入力済み (2)文学作品………韓国文学選集のうち, 短編選集1・2・3・を入力中 2. 機械辞書のハングルコード ハングルコードには1バイト系と2バイト系があるが, 最長一致法による形態素解析のためには, 1バイト系のコードを用いる方がアルゴリズムが簡潔でかつ高速になることが明らかになった. 3. 機械辞書の見出し語形 今年度は特に, 変則用言の見出し語形について研究した結果, 以下のように設定するのが最も効率的な形態素解析が行なえることが明らかになった. (1) 【HA .ウ.】変と 【HA .ル.】変・ 【HA .ト.ド.】変・ 【HA .ヨ.】変は第1語基と第3語基を立てる (2) 【HA .ス.】変と 【HA .フ.】変・ 【HA .プ.ブ.】変は第1・第2・第3語基を立てる. (3) 【HA .ル.】変は語幹末の 【HA .ル.】を除いた形を見出し語形とする (4) 【HA .トウ.ドウ.】変則は語幹と 【HA .ル.】変化した語形を立てる. 4.同形異語の処理 同形異語には, 次の3つのタイプがある (1)意味解釈の段階でこそ多義的になるが, 品詞列としては一義的(名詞・動詞+語尾など)に解析できるもの. (2)品詞列としては異なる解釈が与えられるが, 文字列の形態素への分割は等しい位置で行なわれるもの. (3)文字列の分割位置が異なり, 同形異構造をなすもの このうち, (3)のタイプに属するものは, 最長一致法ではうまく処理できないために, 最も長い見出し語形に他の可能性を全て記述しておかなければならないことが明らかになった.
|
Report
(1 results)
Research Products
(3 results)