研究概要 |
(1)テキストへの品詞標識組み込み,およびその校正作業 昨年度に引き続き,英国ランカスター大学計算機工学科より使用ライセンスを供与された自動品詞付与プログラム(Constituent Likelihood Automatic Tagging System, version 4, CLAWS4)を使用して,電子テキストの全単語への品詞標識のアノテーション作業をを行った。また,テキストを国際的なデータ互換のための規格TEI(Text Encoding Initiative)に準拠した形式に整形するためのプログラムを開発した(プログラミング言語awkやPerlを用いてマークアップ支援のためのプログラムを開発し,作業の効率化を図った)。 (2)多変量アプローチによる文体分析の展開 テキストに組み込んだ情報標識をもとに,語彙項目の出現頻度データを編集し,各テキストの語彙頻度プロファイルを作成した。データに多変量解析による文体分析モデルを適用することにより,さまざまな語彙項目間の相互関係,テキスト間の相互関係,そして語彙項目とテキストとの相互関係を多次元空間に投影・視覚化する実験を繰り返し、解析方法の比較考察を行った。特に,対応分析と主成分分析の結果を比較し,計算法の違いがどのように結果に反映されているか吟味すると共に,変数に高頻度を使用した場合と低頻度語を使用した場合の解析結果を詳細に比較検討しテキストの文体分析に最適な手法の精密化を図った。 その他,ヨエンスー大学(フィンランド)で開催された国際会議PALA2006,および統計数理研究所において開催されたセミナー「英語研究と統計2007」において,これまでの成果の一部を発表した。
|