2019 Fiscal Year Annual Research Report
Machine-learning Approaches to Corpus Stylistics: Towards the Creation of International Collaborative Network
Project/Area Number |
18H00675
|
Research Institution | Osaka University |
Principal Investigator |
田畑 智司 大阪大学, 言語文化研究科(言語文化専攻), 教授 (10249873)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | コーパス文体論 / 国際連携基盤創成 / 機械学習 / トピックモデル / ワードエンベディング / デジタルヒューマニティーズ |
Outline of Annual Research Achievements |
まず最初に取り組んだ仕事は,後期近代英語フィクションコーパスの質的精緻化である。国内外の関連研究を行う研究者とのデータ相互運用や共用,協働を実現する基盤を整備するために,国際的電子文書データ互換規格であるTEI P5に準拠したテクストのマークアップとアノテーションを施した。この工程のうち,マークアップでは,テクストの読みに基づく質的解釈や判断が要求される局面が往々にして発生するため,完全な自動化は見込めない。そのため,合わせて2年以上をかけて,テクストの構造を可視化するよう階層的に整理されたタグを埋め込んだ。さらに,TreeTaggerを利用して,CLAWS C5タグセットでの品詞標識付与(アノテーション)を施した。コーパスを構成している全てのテクストにC5タグを付与することにより,語彙頻度をBNC,COCA, COHAなどの代表的大規模コーパスと直接比較できるようコーパスを整備した。他方,構築したコーパスをもとに,トピックモデルおよびワードエンベディング法による,文体的特徴の研究を実施した。これまでの研究成果の一部は,Digital Humanities Day(大英図書館,2019年5月)での講演において提示したほか,国際文体論学会PALA2019(英国Liverpool)にてトピックモデルを応用した通時的文体研究について口頭発表し,先端的研究者によるリビューを受けた。また,2021年7月には英国Nottinghamより配信された国際文体論学会PALA2021における基調講演(オンライン)でもこれまでの成果を俯瞰的に提示した。国際連携基盤を形成する上では,対面でのフォーラム,会合や情報交換会が不可欠であるが,パンデミックによりそれが実施できていない。オンラインで部分的な情報交換等はできているものの,国際連携基盤の形成は進行が遅れている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2019年度の研究計画は新型コロナウィルスによるパンデミックにより,二度に及ぶ計画の繰越を含め,予定を大幅に変更することを余儀なくされた。特に,国際連携基盤を形成する上では,対面でのフォーラム,会合や情報交換会が不可欠であり,本研究計画を遂行する上で極めて重要な要素であるが,連携研究機関の方針により対面での会合が実施できなかったことによる。ただし,講演会やワークショップをオンラインで開催するなど,部分的には対外的な研究集会によって新たな連携関係を築くこともできている。
|
Strategy for Future Research Activity |
北米や欧州を中心に,学会やワークショップ等の対面開催が徐々に戻りつつある。そのため,今後はこれまでに蓄積してきた研究成果をもとに,国際連携基盤の形成を加速させる方針である。
|
Research Products
(15 results)
-
-
-
-
-
-
-
-
-
-
[Presentation] Experimental Stylometry2019
Author(s)
Tomoji Tabata
Organizer
Stylometry workshop Amsterdam at Advanced Study in the Humanities and Social Sciences (NIAS, Amsterdam, the Netherlands)
Int'l Joint Research / Invited
-
-
-
-
-