1990 Fiscal Year Annual Research Report
フランス語テクスト解析プログラミングの研究(バルザックの作品を対象として)
Project/Area Number |
02801060
|
Research Institution | Saitama University |
Principal Investigator |
霧生 和夫 埼玉大学, 教養学部, 教授 (60008638)
|
Keywords | テクスト解析 / SNOBOL4 / コンコ-ダンス / バルザック / フランス語 / OCR / テクスト・デ-タベ-ス |
Research Abstract |
フランス語テクスト解析プログラミングの研究をスタ-トさせるに当たり、ともかくフランス語特有の綴字記号が処理できるコンピュ-タを設備した。これにより、第一に、解析プログラムの開発が可能になった。テクスと処理専用の言語であるSNOBOL4により、コンコルダンスを自動的に生成するプログラムが一応完成した。一応と言うのは、速度やエラ-処理の点で問題が残っているからである。第二に、対象テクストとして選定したバルザックの作品の入力が効率よくできるようになった。上記コンピュ-タとイメ-ジ・スキャナおよび市販の文字認識プログラムを利用して、個人が利用可能な小規模のOCRシステムが稼働を始めた。現在のところでは、一時間に50ペ-ジ程度のテクスト認識ができる。この過程では、人力による点検作業が不可欠であり、完全な自動化ができないことが問題である。しかしこのシステムを使って、ぼうだいなバルザックのテクストのうち約半分がすでに入力済みであり、それらのテクストについてコンコルダンスも完成している。また「FRANTEXT」というフランスのテクスト・デ-タベ-スにアクセスする試みも成功し、これについては、日本フランス語フランス文学会で発表した。同じ内容のものを学部紀要にも掲載した。研究を進めてゆく上で新たに出会った問題点としては、個人用の小規模のシステムにおいて、大量のデ-タをいかに記録し、整理し、保管するかという課題が未解決のまま残った。数百メガバイトにものぼるデ-タ、フロッピ-ディスクでは1千枚に達するデ-タを、どのようにソ-トし、分類するかが今後のテ-マとなる。また印刷媒体による成果の公表が不可能な量のデ-タを、どのように公開することができるかも考えなければならなくなるであろう。
|
Research Products
(1 results)