研究課題/領域番号 |
18H00675
|
研究機関 | 大阪大学 |
研究代表者 |
田畑 智司 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (10249873)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | トピックモデル / 文体 / 小説言語 / 機械学習 / 国際連携 / コーパス文体論 / フォーラム / ワードエンベディング |
研究実績の概要 |
平成30年度は,研究基盤を確立するために,まずコーパスの質的精緻化を追求した。これまでの研究で編纂した通史的文体研究用参照コーパス(ORCHIDS)のコーパスデザインに修正を施し,各サブコーパスができるだけ,18, 19世紀を代表する作家の作品を収録する構成に改訂した。各テクストはマークアップ言語XMLを用い,TEI P5に準拠するマークアップ(構造標識化)を施した。一方,言語的アノテーションについては,British National Corpusで採用されているCLAWS C5タグセットのパラミターファイルを用いて,テクストの全単語にTreeTaggerで品詞標識を付与した。このように,コーパス文体論研究に特化したコーパスに対し,抽出トピック数,iteration回数,hyperparameter最適化条件,テクスト分割サイズなどの設定条件を様々に変化させたトピックモデリング実験を繰り返し行うことにより,最適な条件を求めた。今年度は特に身体部位表現がどのようなトピックを構成しているか,またそのようなトピックの経年変化の相を視覚化するための分析に重点を置いて研究を進めた。この研究と並行して,ワードエンベディング法による近傍語群の推定実験を実施した。ORCHIDS全体ならびに各サブコーパスごとのモデル構築を行い,ディケンズサブコーパスを特徴付ける近傍語群推定を行った。得られた成果の一部は,国際文体論学会PALA2019で発表したほか,英語コーパス学会第44回大会,文体論学会,言語研究と統計2019などで口頭発表や講演として発表した。他方,コーパス文体論の国際連携基盤創成のまず最初のステップとして,3月に国内外を代表するコーパス文体論研究者5名を招聘し,Osaka Symposium on Corpus Stylisticsを開催できたことは今年度の大きな収穫であった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
予定していたコーパスの整備計画,これまでの研究成果の発表もほぼ計画通りに実施してきた。3月に開催したOsaka Symposium on Corpus Stylisticsでは,国内外から先端的なコーパス文体論研究者を招聘し,最新の研究情報の交換を行うとともに,今後の共同研究,国際連携へ向けた意見交換を行うことができ,次年度以降の研究計画への推移がスムーズにできる状況ができている。
|
今後の研究の推進方策 |
今後の研究計画では,topic modeling と word vectorsを活用した大規模コーパス分析方法論を開発し,18世紀・19世紀の代表的作品テクスト250点(総語数4,000万語超)を収録した後期近代英語フィクションコーパスを横断的に分析する。それにより,特定の作家やテクストと結びついている局所的トピック(共起語群)や特徴語,局所近傍語群(関連語クラスター)を特定する一方,コーパス全体を通して観察可能な遍在的トピックや近傍語群,作品ジャンルと密接に関連したトピックや関連語クラスターを明らかにする。マクロ的観点からは,コーパスに内在する通時的言語変異の相を反映する潜在的トピックや近傍語群を特定し,それらの分布,密度等を数量化したデータをもとに,樹状図やネットワークグラフ,ヒートマップなどの視覚化ツールを駆使して後期近代英語フィクションの系統を可視化する。得られた知見の有効性を検証し,次の段階の研究計画へのシームレスな移行発展につなげるために,関連する研究領域で優れた成果を上げている国内外の研究者との協力関係を強化し,国際連携基盤の確立へ向けた取り組みを加速化する。そのために,Digital Humanitiesの国際年次大会,国際文体論学会(PALA)の年次大会での研究発表を継続し,将来的な研究協力者や共同研究者の開拓を進める一方で,Osaka Symposium on Corpus Stylistics, ならびにコーパス文体論フォーラムを継続的に開催し,機械学習モデルに基づくコーパス文体論研究の拠点を形成していく予定である。
|