研究概要 |
今年度は特に研究資源.環境の整備に重点を置きつつ,次の3テーマを推進した. 1.基礎資料(特定分野コーパスと専門的連語項目リスト)の編纂 申請者が研究分担者として参加している科研費プロジェクトで集積を進めているWeb上の2英語科学論文データのなかから良質なものを学術分野で分類・階層化し,基礎資料として整備した.しかし,これらは情報などの理工学分野が中心で,当初想定したよりはかなり分野が狭い.そこで,関係者らの協力を得,京都大学学術語彙データベースに関わる情報を参照させて頂き,申請者の所属機関における電子ジャーナル関連の状況を勘案しつつ,著作権上問題のなさそうなものについて資料の補完を行った。なお,当該データベースに基づく成果については,共同研究といった形で慎重に取り扱う予定である. 2.部分構造を継続的に計数する計算環境の整備 本研究では,構造に対する効率的な計数技術が求められる.データマイニングなどの分野では,ある特定の制約の下,効率的に部分構造を計数するような方法がいくつか提案されている.しかし,それらをもってしても,部分構造の計数には相当数の処理工程と時間を要すことが予想され,長時間継続的に計算するための環境が欠かせない.本年度は,その計算環境も整えた. 3.統語情報を活用した可変長で不連続性を許したMWE抽出法の開発 本研究ではMWE抽出は,特定分野で特徴的に出現するような部分構造を発見する問題として帰着する。そのためには,(1)適当な情報レベル,(2)適当な枝刈り基準などを備えた効率的な計数法が必須となる.1で作成したMWEリストを参照し,(1)としては句およびそれら句間の修飾関係という程度の統語構造,(2)については共起性尺度の変分を参照することを検討した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度までに達成すべき事項は,分析対象となる基礎資料とその計算環境の整備であり,年度末にその作業が集中した問題はあるものの,おおむね達成できている.MWE抽出法については,研究環境整備の遅れに伴い,予定よりも試行回数が少なくなったが,年度をまたぐ継続課題であった.
|