電子文書に関する議論における大きな問題は、ウェブ上に表示されるテクストのスタイルに関して分野横断的に共有できる基礎資料の欠如である、という認識に基づき、本研究では、電子文書における表示のスタイルとそれを支持するマークアップ言語の相関性に着目し、情報伝達特性研究の基礎資料となる有用なデータベースシステム「スタイル・コーパス」及び検索システムの設計・構築を試行し、汎用的形態を持った電子文書の普及流通を図るための研究に寄与することを目指した。最終年度の平成24年度には、1)データ収集解析プログラム及び検索システムプログラムを試作し、有用性の検討と今後解決すべき問題点の抽出を行い、2)平成23年度から継続している書記言語における伝達性に関する諸既存理論の整理検討と併せて、電子文書のスタイル全般に関する考察を行った。 1)に関しては、上記2つのプログラムにより、任意のウェブサイトからスタイルに関するデータを抽出して構造特性を可視化すると共にデータベースを作成するメソッドを用意し、個々のスタイル要素による検索を可能にした。また、スタイルの出現パターンを出現頻度に従ってマイニングする基本アルゴリズムを実装し、収集されたデータに対してその有効性を確認した。今後解決すべき点は、(A)データベースの拡充を図る際に問題となるプリプロセス方法の自動化、および、(B)検索キーを与える際に、厳密なスタイル値のみならず、(1)あいまい表現・(2)直感的表現・(3)図形情報・(4)動的表現をキーとして用いられるようにし、検索性能を実用レベルまで向上させること、の2点である。 2)に関しては、それ自体可視的に表示されるマークアップ言語(ソースコード)をテクスト論的にいかに考えるべきかとの根本的問題が浮上した。コードが指し示す構造と表示されるページの「見かけ」の間の齟齬の可能性が持つ意味の重要性が再認された。
|