2006 Fiscal Year Annual Research Report
コーパスを用いた論文作成のための基本語彙・慣用的共起表現の抽出
Project/Area Number |
17652055
|
Research Institution | Bunka Women's University |
Principal Investigator |
三国 純子 文化女子大学, 服装学部, 助教授 (00301705)
|
Co-Investigator(Kenkyū-buntansha) |
近藤 安月子 東京大学, 大学院総合文化研究科, 教授 (90205550)
小山 真理 文化女子大学, 造形学部, 助教授 (20308000)
伊集院 郁子 東京外国語大学, 留学生日本語教育センター, 講師 (20436661)
|
Keywords | コーパス / 共起表現 / 論文 / 語彙 |
Research Abstract |
本研究は、コーパスを用いて、留学生が専門分野で論文を執筆する際に必要となる語彙、慣用的共起表現を明らかにすることを目的としている。平成18年度は、コーパスデータの整備及び、共起する名詞と動詞の抽出作業を行った。 17年度に日本人学生(服装社会学及び住環境学専攻)の15・16年度の卒業論文の抄録(15年度239名、16年度238名分)をデータ化したが、データ量が不足していた。そこで、18年度はデータ量を増やすため17・18年度(17年度237名分、18年度259名分)の抄録もテキストデータにした(計973名分)。その後、データを整備し、文節係り受けソフトWATERS(Wide-ranging Automatic Text Extraction & Recognition System)を用いて、係り受けの一覧を出力した。 実際に文構造の解析が正しく行われているかどうかを調べるため、ランダム分析プログラムの作成を専門家に依頼し、収集したデータの一部を用いて検証した。その結果、誤分析率は7%であった。誤分析には漢熟語が重なった複合名詞が多く、動詞と名詞の共起表現を抽出する際の誤分析は少なかったことから、本ソフトを使用して名詞と動詞の共起表現を抽出することに問題はないと判断した。現在、専門家に品詞抽出及び共起表現抽出プログラムの作成を依頼し、上記のデータで動詞と「する動詞」を抽出し、これらの動詞と共起する名詞を選び、頻度を集計している。
|