研究概要 |
自然な対話を転記して、研究資料として共有するための基本的な方法の確立を目的として、(1)社会言語分野における関心および転記方法を検討し、(2)その問題点を指摘し、(3)それに基づいて、SGML/TEIに準拠する統一的は表記方法を検討し、その改良を提案する。とくに本年は、「発話」の概念とその表現方法について検討を加えた。そのために、英語の対話コーパスを中心としてその実際の方式を検討するとともに、日本のコーパスを試作することによって、概念と方式の妥当性を確認した。 対話あるいは会話においては、自然言語と特徴づけるとされている線状性と連結性が破壊されている場合が多い。連結性の破壊は、単独の発話の表現においても重要な問題である(self-repair,interjection,etc)が、対話においては、参考者の複数性によって、線状性(同時にはひとつの発話のみが存在する)が破壊されることになる。通常の転記方法はこれに対してかならずしも十分な表現力を持つものではないので、対話の記録には、この問題に対処するための特殊な表記方式を確立する必要がある。また、そのようにして表記された資料を共有し、活用するためには、表記方法を規格化することが必要になる。この解決をTEIの方式によることとした。しかし、TEIの方式だけでは、具体的は発話をどのようにマークアップするか確定しないので、それをコーパス作成に反映させた。 また、コーパスである以上、それぞれの言語要素の言語的性質を表現しておかなければならい。これは、書き言葉のコーパスと共通の方式にしたがう必要があるり、したがって、コーパス一般にかかわるのでここでは省略するが、基本的には、各単語をSGML entityをつけたものとして表現する。あるいはentityへのpointerとなるempty tagによって表現することも可能である。しかしそれだけでなく、日本語の正書法で転記する場合の、(1)「単語」の切れ目を示す正書法上の仕組みが存在しない、(2)自動的な形態素解析はどのような辞書を利用するかによって成果がことなるが、コーパスはむしろそのような自動解析の結果を評価するものであるから完全に自動化してはいけない、(3)そもそも日本語において「単語」とはば何であるかという問題について解決を与えた。実際のコーパスにおいては、さらに、<w>タグとそのattributeを活用して品詞の情報を与える方法を提案、実験した。 このようにしては、言語的特徴づけ以外の情報記載もSGMLによることとなり、統一的なSGMLアプリケーションが利用できる対話記録の方式を確立するとともに、TEIコンフォーマットなSGMLアプリケーションとして試作コーパスを作成した。
|