2020 Fiscal Year Annual Research Report
Machine-learning Approaches to Corpus Stylistics: Towards the Creation of International Collaborative Network
Project/Area Number |
18H00675
|
Research Institution | Osaka University |
Principal Investigator |
田畑 智司 大阪大学, 大学院人文学研究科(言語文化学専攻), 教授 (10249873)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | コーパス文体論 / 国際連携基盤創成 / 機械学習 / トピックモデル / デジタルヒューマニティーズ |
Outline of Annual Research Achievements |
まず,参照コーパスを構成するテクストのマークアップを改善するために,プログラミング言語Pythonで,テクストの構造を手がかりに,自動的に文書構造マークアップを実施するスクリプトの開発に注力した。このスクリプトの開発の結果,段落の前後を<p></p>でマークアップするだけでなく,テクスト中の引用の前後に<quote></quote>を埋め込む一方,スマートクウォートを全てダムクウォートに変換,nダッシュ,mダッシュともに<dash;/>タグに変換するほか,称号や数字の表記も統一することにより,底本テクストによるパンクチュエイションのばらつきを可能な限り最小化することを支援できるようになった。これを基に,テクストマークアップの質を高めるために推敲を進めた。並行して,トピックモデリングを文体論研究に応用するために,自然言語処理分野の先行研究を幅広く渉猟し,知識基盤の整備に努めた。この段階までの研究成果について以下のような形で発表・報告することにより,リビューを受けている。(1) 日本英文学会中国四国支部第74回大会シンポジウム「デジタル時代の英語英米文学研究と英語教育」パネル発表「確率論的トピックモデリングによるBritish classic fictionの「遠読」」(2) Western Australia Universityで開催されたBuilding Digital Humanitiesでのパネルセッション"Digital Humanities as/and computational Science"にてDHにおける機械学習について講演した。(3) フランスおよびドイツへ出張し,最新の研究情報を収集するとともに,連携拠点形成についての意見交換を行なった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究計画は新型コロナウィルスによるパンデミックにより,二度に及ぶ計画の繰越を含め,予定を大幅に変更することを余儀なくされた。国際連携基盤を形成する上では,対面でのフォーラム,会合や情報交換会が不可欠であり,本研究計画を遂行する上で極めて重要な要素であるが,連携研究機関の方針により一部対面での会合が実施できなかったことによる。ただし,講演会やワークショップをオンラインで開催するなどの工夫を施すことにより,新たな連携関係を築くための準備を継続している。
|
Strategy for Future Research Activity |
国内研究機関はもとより,海外の研究機関との往来もほぼ正常な状態に戻りつつあることを鑑み,国際学術集会・国際学会での研究成果発表を加速し,機械学習に基づくコーパス文体論の国際連携基盤の整備に向けた交渉および関係構築に注力する予定である。
|
Research Products
(2 results)