2015 Fiscal Year Research-status Report
マイニング技術を応用した著者推定法の開発とディケンズ・ジャーナルの計量文体研究
Project/Area Number |
15K02600
|
Research Institution | Osaka University |
Principal Investigator |
田畑 智司 大阪大学, 言語文化研究科(研究院), 准教授 (10249873)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 計量文体学 / 著者推定 / ディケンズ・ジャーナル / 文体 / テクストマイニング / デジタル・ヒューマニティーズ |
Outline of Annual Research Achievements |
まず当研究の目的を達成するため, 次の5段階の計画を立てた。 (1)一次資料としてのディケンズ・ジャーナルコーパスの整備,テクスト処理実験の試行 (2)統計学的文体分析アルゴリズムの研究およびRによる分析器プロトタイプ開発 (3)さまざまな著者推定法,マイニング法によるデータ解析・視覚化,解析結果の比較検討 (4)最適化した分析アルゴリズムによるコーパス分析結果の言語文化学的考察,有効性の検証 (5)成果発表およびコーパス・文体研究用の Web アプリケーションの開発と公開。 平成27年度は,上記の工程のうち(1),(2)を中心に計画を遂行した。まず,過去の研究課題で編纂・構築した大規模コーパス(総語数 1,758万語)を基にテクスト処理実験を試行した。並行して,未整備のディケンズ週刊ジャーナルコーパスの編集構築を進めた。週刊ジャーナルコーパスの編集は,古書のスキャン画像をOCRで取り込んだデータを使用た。しかし,19世紀の古書画像の場合,飾り文字の使用や,印字画像の質が悪いものも数多く存在するなど,OCRを行う条件は過酷であり,手作業での修正作業を余儀なくされた。校正が済んだデータは文書電子化の国際互換規格であるText Encoding Initiative (TEI) P5に準拠した構造化マークアップを施した。 他方,計量文体分析の実験を繰り返す過程でで,テクスト中のハイフネーション・綴字正書法の統一などを図った。綴字正書法の統一等に際しては,処理実験で使用する語彙頻度一覧作成プログラムや正規表現を活用することによって作業を効率化した。主成分分析,対応分析,SVM,Random forests等のツールに加えて,著者推定における識別力に優れている手法 Burrows’s Delta, Craig’s Zeta等のアルゴリズムを研究し, Rで分析ツールの開発を行なった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画している工程をほぼ予定通り実施しており,順調に進展していると判断できる。
|
Strategy for Future Research Activity |
今後の研究推進計画は以下の通りである。 (1)パイロットスタディ実施:分析器プロトタイプを用いてサブコーパスの一部を解析するパイロットスタディを実施する。様々な分析手法の比較検討に基づいて,分析器ツールを修正・最適化し,Webアプリケーションの開発に着手する。パイロットスタディの成果は,国際会議Digital Humanities 2016のワークショップ,およびPALA2016において発表の予定である。これらの成果発表で2年目時点での研究計画の達成度を評価し,可能であれば3年目の計画を前倒しで進めたい。 (2)ディケンズ・ジャーナルコーパスの本格的分析,結果の文体論的考察,有効性検証:大規模コーパスの文体分析に最適化した分析プログラムを完成させ,本格的なコーパス分析研究を展開する。言語項目間の(共起)関係,テクスト間の関係,そして語彙項目の生起パターンとテクストとの相互関係を多次元空間に投影・視覚化する。一連の分析結果をディケンズの言語の内的変異及び19世紀英語発達の文脈の両面から捉え文体論的考察を展開する。 (3)研究成果の総括,成果データ・コーパス・文体分析用Webアプリケーション公開:発展させた研究の成果をDigital Humanities 2017 および,PALA2017 またはICAME2017 などで発表する。三年間の研究計画で得た成果をまとめ。研究計画の遂行過程で開発するコーパスや,著者推定アプリケーションは連携関係にある研究機関に所属するの研究者との共同研究に活用する一方で,専用の配信サーバを設置し,インターネット経由で利用可能な形態にして公開したい。これにより,他の研究者にこの研究資産を提供すると同時に,利用者からのフィードバックをコーパスや解析法の修正・改良に反映させて,質的により完成度の高い計量文体分析モデルの確立を目指す。
|
Causes of Carryover |
今年度の予算にてデータ入力用のラップトップコンピュータを購入する予定であったが,物品費,旅費,その他の支出が当初予定よりも大きくなった。研究計画遂行に必要とされるスペックを備えたコンピュータを購入するには予算が不足しており,今年度の購入を見送った。
|
Expenditure Plan for Carryover Budget |
繰越予算額(次年度使用額)と2016年度の助成金の一部を合算してデータ入力用のラップトップコンピュータを購入することを予定している。
|