「言語から見た日米マインドスケープ比較」や日英対訳データを用いた「データサイエンス志向型小説研究」を可能にする基盤的なツールとして、複数の英語テキストと日本語テキストから、基本的な語彙処理(形態素切り分け、品詞認定)を行ったうえで、書字形レベルと語彙素レベルの2階層で、統合語彙表を自動作成して出力する「English/Japanese Word Frequency Table Generator(EJWFTG)を開発し、一般公開することができた。 EJWFTGを用いれば、たとえば、日本語や英語の小説100本から、そこで使用されたすべての語について、各作品での使用頻度を一覧で出力することができる。こうして得られた語彙表を観察することで、頻度だけでなく、レンジ(当該語が出現するテキスト数またはその比率)をふまえた基本語の検討が可能になる。また、得られた語彙表は、多変量解析の基礎データにもなるもので、たとえば対応分析や多次元尺度法などを用いて、語と作品の関係を明らかにしたりすることも可能になる。 今後、EJWFTGを用いた日英語の比較研究や、語彙分析を糸口とするマインドスケープ比較研究に使用されることが期待される。なお、EJWFTGの開発理念と使用法の詳細、また、EJWFTGが可能にする新しいコーパス研究の可能性については、2024年3月に刊行された論文「「森を見ながら木を見る」コーパス研究の意義 : 複数テキストから統合語彙頻度表を作成するEJWFTGの開発」において詳述されている。
|