Korpus, (lat. corpus 'krop, legeme'), en stor afgrænset mængde af tekster indsamlet efter klart definerede kriterier og tilgængelig i elektronisk form. Korpusser bruges hovedsageligt til kvalitative og kvantitative undersøgelser af sproget (korpuslingvistik), til udarbejdelse af ordbøger og til udvikling af sprogteknologi. Korpusser giver statiske øjebliksbilleder af det sprog, der bruges i indsamlingsperioden.

Det Danske Sprog- og Litteraturselskab har således indsamlet to danske korpusser, Korpus 90 og Korpus 2000, som dækker perioderne 1988-92 og 1998-2002, i alt ca. 50 mio. ord. Derved bliver det muligt at sammenligne ordforråd og sprogbrug i de to perioder.

Teksterne i et korpus kan forsynes med eksterne og interne opmærkninger. De eksterne opmærkninger indeholder oplysninger om teksten som helhed, fx forfatter, årstal og kilde. De interne opmærkninger indeholder oplysninger om tekstens byggesten. For de enkelte ord angives ordklasse og betydning, for ordforbindelser angives afgrænsning og betegnelse, for samtaler angives replikskifte og talere. De eksterne oplysninger gør det muligt at filtrere, så man fx kan søge i tekster skrevet udelukkende af mænd eller tekster fra en bestemt avis. De interne oplysninger gør det muligt at frasortere homografer, så man kan skelne mellem (adverbium) og (verbum), og at søge efter bestemte sætningskonstruktioner eller ordbetydninger. Søgninger i korpusser præsenteres ofte i form af konkordanser, således præsenterer en KWIC-konkordans (Keyword in Context) de fundne ordforekomster på hver linje omgivet af et antal ord på hver side.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig