1996 Fiscal Year Annual Research Report
品詞情報・構文情報を持った日本語中規模テキストコーパスの作成
Project/Area Number |
07558046
|
Research Institution | KYOTO UNIVERSITY |
Principal Investigator |
長尾 真 京都大学, 工学研究科, 教授 (30025960)
|
Co-Investigator(Kenkyū-buntansha) |
角田 達彦 京都大学, 工学研究科, 助手 (10273468)
丸山 宏 日本IBM(株), 東京基礎研究所, 研究員
黒橋 禎男 京都大学, 工学研究科, 助手 (50263108)
|
Keywords | 自然言語処理 / テキストコーパス / 形態素解析 / 構文解析 |
Research Abstract |
本研究は種々の日本語文章の形態素解析、構文解析を通じて、我々の持っている形態素解析プログラム、構文解析プログラムの改良を行い、これらのプログラムを公開することを目的とした。また同時に、これによって解析され文法情報を自動付与された日本語文章のデータベースを作成し、広く自然言語処理研究者に公開することを目的とした. 本年度は2年間の研究期間の最終年として以下のことを行なった. (1)形態解析プログラムJUMANについては,昨年度行なった改良・修正をまとめ,JUMAN3.0として平成8年10月に一般公開した. (2)構文解析プログラムKNPについては,文法記述の枠組の修正,並列構造解析の強化,従属節のスコープ解析の強化,用言に準ずる種々の表現への対応,など種々の改良・修正を行なった.この成果は,KNP2.0として平成9年3月に一般公開した. (3)コーパスに付与する形態素情報,構文情報について基準をまとめ,自動付与した情報の修正作業者へのアニュアルを作成した. (4)自動付与した情報の人手修正を日常的に行ない,平成9年3月末までに「正しい」形態素・構文情報を付与したコーパス,約2万文を作成した.このうち,約1万文は平成9年3月に公開した. 大量文章の自動解析およびその修正作業は,これまでの成果を利用して,そのまま継続していく体制をとっており,プロジェクト終了後も追加版コーパスの公開を続ける予定である.
|
Research Products
(2 results)
-
[Publications] 黒橋禎男,坂口昌子,長尾眞: "京都大学におけるテキストコーパスの作成" 情報処理学会「大規模テキストコーパスの作成及び共有の問題点」シンポジウム論文集. 19-26 (1996)
-
[Publications] 黒橋禎男,長尾真: "京都大学テキストコーパス・プロジェクト" 言語処理学会第3回年次大会. (1997)