コーパス言語学 linguística de corpus
 近年盛んになってきた電子化された言語資料にもとづく言語研究。文法・言語理論そのものを指すのではなく、電子化された言語資料をコンピューターを使用して解析する言語研究を総称的に言う。
 言語コーパス(sg.corpus, pl. corpora)は出版物(新聞、文芸作品、インターネット上の諸情報など)あるいは文字化した口語などを大量に電子化し言語資料としたものである。こうした言語資料には品詞をはじめ、統語的・形態的、さまざまな情報付加(anotar)がおこなわれており、コンピューターによりこれらの情報を手がかりに、実際の膨大な言語資料に対してさまざまな検索を行い、目的にかなった言語データ、つまりは用例を必要な数だけ取得することが出来る。
 こうした研究目的にかなった用例のみを研究者が一瞬のうちに取得できるということは画期的である。言語研究者が特定の研究目的に合致した用例を必要としても、帰納的な研究に足るだけの数の用例を公汎な言語資料の解読によって得ようとすれば容易なことではない。また当該研究者が対象言語の母語話者ではないとすれば言語的内省は役に立たたずインフォーマント調査に頼らざるを得ない。しかしながら衆知の通りインフォーマントから目的に合った例を上手に引き出すには相当な熟練が必要とされる。
 それに対して言語コーパスをコンピューターで扱う限りこのような問題とは無縁に一瞬のうちに必要な用例を集め、試行錯誤を重ねながら言語研究を進めることができる。また、母語話者の言語的直観が必ずしも完璧でないこともあるため、コーパスに基づく検証はきわめて重要な意味を持っている。
 たとえば一般的にポルトガル語の形容詞は(1)のごとく名詞の後に置かれるが、(2)のように名詞の前に置かれることも多い。
(1) o aeroporto internacional
(2) o novo aeroporto internacional

 そこで、名詞を中心として前後に形容詞は何語現れうるかということに疑問を持った場合は、品詞による一致検索を行うことで(3)が最大の連鎖であること、すなわち名詞の前には形容詞が1種類のみ接続可能で、名詞のあとには形容詞は3種を限度に接続出来ることが簡単に実証される。
(3)【形容詞1+名詞+形容詞2+形容詞3+形容詞4】
  例:a antiga filosofia cósmica dualista chinesa

 さらに(3)の前に数詞を加えることが可能である。
(4) os quatro grandes grupos financeiros privados nacionais

 言語コーパスのタグ付け(anotação)は言語解析ソフトウエアにより自動的に行われるので若干のエラーは免れない。しかしながらコーパスはこうした誤差を補って余りある強力な道具を言語研究者に提供している。言語コーパスに基づく研究は今後益々盛んになって行くであろう。
 ポルトガル語関係ではオンラインのコーパス言語学ポータルサイトLinguateca(www.linguateca.pt)からさまざまなコーパスにアクセスし検索が可能である。そのほかCorpus do Português (www.corpusdoportugues.org)では中世から現代にいたるポルトガル語コーパスを縦横に検索できる。

Copyright 2011 © Shiro Iyanaga All rights reserved