研究分担者 |
中津 楢男 愛知教育大学, 教育学部, 教授 (90133131)
多鹿 秀継 神戸親和女子大学, 発達教育学部, 教授 (30109368)
横山 詔一 国立国語研究所, 研究開発部門, グループ長 (60182713)
江島 徹郎 愛知教育大学, 教育学部, 准教授 (10335078)
梅田 恭子 愛知教育大学, 教育学部, 講師 (70345940)
|
研究概要 |
本研究では,WWW上に流通している日本語テキストをコーパスとして活用する際の諸問題を考察した。最初に,日本語コーパスに関連する先行研究を概観したところ,WWWを日本コーパスとして活用する環境が未だに十分に整備されていないことが示された。次に,情報・教育系の1つの国内学会を対象に,Web上で公開されている学会の公式サイトをWWWコーパスとしてとらえ,過去2ケ年分の当該学会の全国大会のすべての研究発表論文を分析した。その結果,テキストマイニングの手法を用いた研究はいくつか行われているが,WWW日本語コーパスに関連する研究が皆無であったことが明らかになった。このような知見を踏まえた上で,WWW日本語コーパスを研究対象とする際の諸問題を考察した。すなわち,1)サンプルの偏り,2)執筆者の架空の人格設定,3)記述内容の妥当性の保証,4)同一人物による多数の投稿,5)記述内容の修正や更新などのデータ管理が個人レベルで行われているものが多数存在すること,6)不正な文章コピーや他サイトからの引用,などが考慮すべき点として挙げられた。このように,サンプルのバイアスは残るが,膨大な量の個人発のデータが蓄積できるようになったのはインターネットが歴史上初めてであると言える。インターネットは量的にも質的にも私たちの現在の知的資源として利用できるものとなったといえる。今後の課題は,これらの知的資源を研究対象として分析に用いるための適切な手法を明らかにすることなどである。
|