2011 Fiscal Year Research-status Report
工学的テクストマイニング技術を応用した19世紀英語の計量文体研究
Project/Area Number |
23500298
|
Research Institution | Osaka University |
Principal Investigator |
田畑 智司 大阪大学, 言語文化研究科(研究院), 准教授 (10249873)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | テクストマイニング / 文体 / テクスト分類 / 著者推定 / 計量研究 |
Research Abstract |
(1) 一次資料としてのコーパスの整備・処理実験の試行平成23年度はディケンズの作品28点約500万語,18世紀の代表作品23点450万語,19世紀の主要作品31点520万語を収録したコーパス(総語数1,470万語)の編纂・校正作業を行った。この工程は研究基盤を築くために極めて重要なプロセスであるため,多くの時間と労力を費やす必要があった。ただし,19世紀のジャーナリスティックな英語散文のデータについてはまだ十分な量を収録していないため,平成24年度も引き続きコーパスサンプルの充実を図る予定である。他方,文体研究に最適化したアノテーションや,構造化の実験を行った。特に,18, 19世紀の英語散文を扱う際の大きな障害である異綴り語の問題に対処するために,lemmatizationの技術を応用し,テクスト中の異綴り語を,語彙頻度プロファイル作成の段階で集計して標準綴り語の頻度にまとめ上げる手法を開発した。(2) マイニングアルゴリズムの研究,統計解析言語 Rによる分析器プロトタイプの開発申請者がこれまでに活用してきた主成分分析や対応分析,判別分析,クラスター分析等のツールに加えて,著者推定における識別力に優れていることが示された手法 Burrows's DeltaやRandom Forestsのアルゴリズムを研究し,統計解析言語Rで分析ツールを開発した。(3) パイロットスタディ実施現時点で分析可能なデータを用いたパイロットスタディを行い,著者識別において極めて良好な結果を得た。成果の一部をLanguage Individuation Symposium, MMECL2011, Digital Humanities Australasia 2012等の国際学会において発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要でも述べている通り,(1) 一次資料としてのコーパスの整備・処理実験の試行については,19世紀のジャーナリスティックな英語散文のデータはまだ充分に揃っていないが,コーパス処理実験の試行は順調に推移しており次年度へのシームレスな移行が可能である。(2) マイニングアルゴリズムの研究,統計解析言語 Rによる分析器プロトタイプの開発については,ほぼ計画通りに進展しており,すでに(3) パイロットスタディの成果の一部をLanguage Individuation Symposium, MMECL2011, Digital Humanities Australasia 2012等の国際学会において発表した。研究発表はいずれの学会でも高い評価を得ている。以上の点から,現時点で当研究計画は概ね順調に進展していると言える。
|
Strategy for Future Research Activity |
(1) コーパスの整備・拡大平成24年度は特に19世紀のジャーナリスティックな英語散文のデータ収集につとめ,コーパスサンプルの充実を図る予定である。他方,文体研究に最適化したアノテーションや,構造化方法論の精緻化を進める。(2) 分析器プロトタイプの開発統計解析言語Rを用いて,テクストデータからの知識抽出に有効な機械学習法のアルゴリズムを研究する。その上で,さまざまな手法を統合し,一連の解析処理を担う分析器のプロトタイプ開発を行う。(3) パイロットスタディ実施:データ解析結果の比較検討分析器プロトタイプを用いてサブコーパスの一部を解析するパイロットスタディを実施する。異なる分析手法間の結果の比較検討に基づいて,分析器ツールを修正・最適化する。パイロットスタディの成果の一部は,人文情報学研究者が一堂に会す国際会議 Digital Humanities 2012 (ハンブルク),JADH 2012 (東京)において発表の予定である。
|
Expenditure Plans for the Next FY Research Funding |
(1) コーパスの整備・拡大コーパスデータの整備を進めるために,サーバー専用のコンピュータ(300,000円)を購入し研究基盤を盤石にする。その他,図書,ソフトウェアライセンスや消耗品の購入に(200,000円)を当てる。(2) 研究進捗状況の確認,成果の一部の発表パイロットスタディの成果の一部は,人文情報学研究者が一堂に会す国際会議 Digital Humanities 2012 (ハンブルク),JADH 2012 (東京)において発表し,進捗状況についての外部レビューを受ける。旅費として800,000円を計上する。
|