2005 Fiscal Year Annual Research Report
現代日本語電子化テキストの類型化とその利用上の問題点に関する基礎的研究
Project/Area Number |
17652038
|
Research Institution | Tohoku University |
Principal Investigator |
後藤 斉 東北大学, 大学院・文学研究科, 教授 (90162156)
|
Keywords | 電子化テキスト / コーパス / 現代日本語 / 言語データ |
Research Abstract |
本年度の研究においては、研究実施計画に基づいて、電子化テキストの所在の把握およびテキストの形式的類型化を行った。 1.電子化テキストの所在を把握するため、電子出版に関する調査およびネット上の状況の調査を行った。電子出版については通常の出版物と同様に国立国会図書館に納本する制度があるが、同館において調査したところ、出版が確認されているが同館の所蔵から漏れているものも多いこと、また出版物としてカタログ化されてはいても言語データとしての電子テキストという観点からは情報として不十分な点があることがわかった。ネット上から電子テキストを収集してその公表の状況を調査したところ、予想以上に多くのテキストが各種の団体や個人によってすでに公表されていることが確認できた。 2.テキストの形式的類型化としては、まず、とりわけ電子出版の調査から電子的なフォーマットが、プレーンテキストから独自形式にいたるまで、きわめて多様であり、したがって言語データとしての利用において障害となる可能性があることがわかった。ジャンルとしては、電子出版およびネット上の状況の双方で、当初の予想通り大きな多様性が確認できた。一方、言語データとしての利用の観点からは、とりわけ執筆者と読者のそれぞれの属性および両者の関係、執筆の状況などの社会言語学的および語用論的観点を含めた整理の必要性が強く認められた。外国における同様の問題に関する事情についても情報を収集したが、直接依拠することができると思われる事例は乏しかった。
|