テキストデータベースないしはプレーンなコーパスを検索する際に、通常の語のレベルを超えて、品詞や文法に関する情報を検索可能にするためには、ある程度文構造を自動解析する処理が必要となる。本研究は、この目的のために、「テキストデータベース解析辞書」を構想し、これをソフトウェアとして実現した。その際、基礎資料として、グリム童話のデータを使用した。 本研究によって得られた具体的成果は次の通りである。 1 グリム・コーパスの整備 グリム兄弟のKinder-und Hausmarchenの1812年版、1819年版の電子化を行ない、これらと既存の1857年版を含めて、グリム・コーパスとして再編した。これは小規模ながらドイツ語コーパスで初めての通時コーパスと言えよう。 2 レンマ頻度表の完成 延べ語数22万語を超える1857年版のレンマ頻度表を完成した。単純な語彙頻度表に比べて、レンマ頻度表は、とくにドイツ語のような語形変化の激しい言語では、非常に難しい作業である。これまでにあまり例のない試みであり、単にグリムの語法研究のみならず、言語学、辞書学、文体論など各方面で利用価値があると思われる。 3 コーパス解析ソフトウェアTEDDY IIの完成 自動解析ストラテジー(ASA)をインプリメントしたGUIベースのソフトウェアTEDDY IIを完成した。TEDDY旧版と比べ、とくにユーザインターフェイスや出力結果の表示など機能面の向上が図られている。
|