現代日本語電子化テキストの類型化とその利用上の問題点に関する基礎的研究
Project/Area Number |
17652038
|
Research Category |
Grant-in-Aid for Exploratory Research
|
Allocation Type | Single-year Grants |
Research Field |
Linguistics
|
Research Institution | Tohoku University |
Principal Investigator |
後藤 斉 東北大学, 大学院文学研究科, 教授 (90162156)
|
Project Period (FY) |
2005 – 2006
|
Project Status |
Completed (Fiscal Year 2006)
|
Budget Amount *help |
¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2006: ¥400,000 (Direct Cost: ¥400,000)
Fiscal Year 2005: ¥500,000 (Direct Cost: ¥500,000)
|
Keywords | 電子化テキスト / コーパス / 現代日本語 / 言語データ |
Research Abstract |
本年度の研究においては、研究実施計画に基づいて、前年度に行った研究を継続して電子化テキストの所在の把握およびテキストの形式的類型化を進め、さらに、言語的特徴による類型化を試み、問題点の整理を行った。 1.引き続き、電子化テキストの所在を把握するため、電子出版に関する調査およびネット上の状況の調査を行った。ネット上からは電子テキストの多様性を改めて確認した。電子出版については、前年の調査において既存のカタログから漏れているものが多いことがわかったため、確認できたテキストについてより包括的なリストを作成した。 2.このリストをもとにしてテキストの形式的類型化を進め、電子的なフォーマットとしてプレーンテキスト、種々のタグ付テキストファイル、pdf、独自形式があり、なかには言語データが画像として保存されているものもあることがわかった。とりわけ、pdfに関しては、セキュリティの設定が多様であることが特徴的である。 3.言語データとしての利用の観点からは、技術的な問題なく利用できるものから極めて困難なものまで多様であり、一様に捉えることができないことが確認できた。わかった。ジャンルとしては、電子出版およびネット上の状況の双方で、当初の予想通り大きな多様性が確認できた。ジャンルとしては、量的には新聞とコンピュータ分野の文献に大きく偏っているものの、文学、法律、哲学、時事問題などある程度の多様さが見られること、しかし電子化テキストが欠けている分野も多いことがわかった。 4.これらの結果として、多様な現代日本語の電子化テキストを研究に用いる上での問題点を技術的、言語的、実務的な観点から考察し、整理した。
|
Report
(2 results)
Research Products
(2 results)