2023 Fiscal Year Annual Research Report
Novels and Data Sciences: Mindscape Seen in Language
Project/Area Number |
20K20699
|
Research Institution | Kobe University |
Principal Investigator |
石川 慎一郎 神戸大学, 大学教育推進機構, 教授 (90320994)
|
Project Period (FY) |
2020-07-30 – 2024-03-31
|
Keywords | 日英語比較 / 語彙分析 / 形態素解析 / 語彙表自動出力 / 多変量解析 / マインドスケープ研究 |
Outline of Annual Research Achievements |
「言語から見た日米マインドスケープ比較」や日英対訳データを用いた「データサイエンス志向型小説研究」を可能にする基盤的なツールとして、複数の英語テキストと日本語テキストから、基本的な語彙処理(形態素切り分け、品詞認定)を行ったうえで、書字形レベルと語彙素レベルの2階層で、統合語彙表を自動作成して出力する「English/Japanese Word Frequency Table Generator(EJWFTG)を開発し、一般公開することができた。 EJWFTGを用いれば、たとえば、日本語や英語の小説100本から、そこで使用されたすべての語について、各作品での使用頻度を一覧で出力することができる。こうして得られた語彙表を観察することで、頻度だけでなく、レンジ(当該語が出現するテキスト数またはその比率)をふまえた基本語の検討が可能になる。また、得られた語彙表は、多変量解析の基礎データにもなるもので、たとえば対応分析や多次元尺度法などを用いて、語と作品の関係を明らかにしたりすることも可能になる。 今後、EJWFTGを用いた日英語の比較研究や、語彙分析を糸口とするマインドスケープ比較研究に使用されることが期待される。なお、EJWFTGの開発理念と使用法の詳細、また、EJWFTGが可能にする新しいコーパス研究の可能性については、2024年3月に刊行された論文「「森を見ながら木を見る」コーパス研究の意義 : 複数テキストから統合語彙頻度表を作成するEJWFTGの開発」において詳述されている。
|
Research Products
(8 results)