2001 Fiscal Year Annual Research Report
Project/Area Number |
11410112
|
Research Institution | Aoyama Gakuin University |
Principal Investigator |
近藤 泰弘 青山学院大学, 文学部, 教授 (20126064)
|
Keywords | ハイパーテキスト / KWIC / 日本語 / 文法 / UNIX / テキストデータベース / Linux |
Research Abstract |
本年度は昨年度に引き続き文脈情報を付した用例データベースリ作成および、ハイパーテキスト化のための基礎研究を行った。また、そのための基礎作業として、Limuxシステムの評価も行った。またデータベースを検索するために、高速文字列検索の技法があるが、そのシステム的評価も合わせて行った。文字列検索のためには、従来知ら,れているgrepのような逐次サーチの方法ではなく、データベース的アプローチを採用する。特にその中でもインデクスファイルとして単語を切り出すのではなく、文字列を切り出す方法を採用する。サフィックスアレイと呼ばれるライブラリにより、単語を切り出すことなく、きわめて高速に文字列を検索可能となるのである。 またデータベースと実際のテキストとの対比作業のため、N-gramによる文字列総合比較という方洗も考案している。これは、文字列レベルでテキスト内のすべての文字列の組み合わせを網羅し、それによって他のテキストや辞書との対比を網羅的に行う方法である。これにより、試行的に古典語テキストや現代語テキストの対比を行い、きわめて革新的な成果をあげられることを実証しつつある。その成果の一部は、論文として発表している。 さらにXMLにより構造的なテキストとして文法を記述する方法についても、さらに詳しく調査しているところである。このためのテストプログラムやデータも完成しつつある。 以上、文法現象を観察するための高速テキストサーチ、データベースの比較のためのN-gramシステム、文法記述のためのXMLシステムという道具立てについては相当に完成を見ている。次年度はその具体化をつめてゆきたい。
|
Research Products
(2 results)