音声対話データのタグはテキスト化による研究促進のための基礎的研究とその実現
Project/Area Number |
05241201
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Research Institution | Chiba University |
Principal Investigator |
土屋 俊 千葉大学, 文学部, 教授 (50155404)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 浩之 松下電器産業, 東京情報通信研究所, 主任技師
|
Project Period (FY) |
1993
|
Project Status |
Completed (Fiscal Year 1993)
|
Budget Amount *help |
¥3,000,000 (Direct Cost: ¥3,000,000)
Fiscal Year 1993: ¥3,000,000 (Direct Cost: ¥3,000,000)
|
Keywords | TEI / SGML / マークアップ / コーパス / 対話 / 談話 / 言語行為 / 正書法 |
Research Abstract |
自然な対話を転記して、研究資料として共有するための基本的な方法の確立を目的として、(1)社会言語学分野における関心および転記方法を検討し、(2)その問題点を指摘し、(3)それに基づいて、SGML/TEIに準拠する統一的な表記方法を検討し、その改良を提案する。さらに、日本語の音声対話の正書法転記のためには「単語」への分割と「品詞」タグとが必要であることを指摘してSGMLの範囲で実現可能であり、かつ、労力的にも妥当なその方法を提案した。 対話あるいは会話においては、自然言語と特徴づけるとされている線状性と連結性が破壊されている場合が多い。連結性の破壊は、単独の発話の表現においても重要な問題である(self-repair,interjection,etc)が、対話においては、参与者の複数性によって、線状性(同時にはひとつの発話のみが存在する)が破壊されることになる。通常の転記方法はこれに対してかならずしも十分な表現力を持つものではないので、対話の記録には、この問題に対処するための特殊な表記方式を確立する必要がある。また、そのようにして表記された資料を共有し、活用するためには、表記方法を規格化することが必要になる。この解決をTEIの方式によることとした。 また、コーパスである以上、それぞれの言語要素の言語的性質を表現しておかなければならない。これは、書き言葉のコーパスと共通の方式にしたがう必要があり、したがって、コーパス一般にかかわるのでここでは省略するが、基本的には、各単語をSGML entityをつけたものとして表現する。あるいはentityへのpointerとなるempty tagによって表現することも可能である。しかしそれだけでなく、日本語の正書法で転記する場合の、(1)「単語」の切れ目を示す正書法上の仕組みが存在しない、(2)自動的な形態素解析はどのような辞書を利用するかによって成果がことなるが、コーパスはむしろそのような自動解析の結果を評価するものであるから完全に自動化してはいけない、(3)そもそも日本語において「単語」とは何であるかという問題について解決を与えた。 このようにしては、言語的特徴づけ以外の情報記載もSGMLによることとなり、統一的なSGMLアプリケーションが利用できる対話記録の方式を確立した。
|
Report
(1 results)
Research Products
(1 results)