Datalingvistik, sprogvidenskab, der har som mål at få en computer til at simulere menneskers opfattelse og udformning af sproglige meddelelser.

Datalingvistikken er næsten lige så gammel som datamaskinerne. Meget tidligt mente man, at maskinerne kunne bruges til at oversætte med. Adskillige projekter har arbejdet med automatisk oversættelse, uden at man dog har fundet helt tilfredsstillende løsninger på den meget komplekse opgave, som en oversættelse er. Med den stigende brug af computere er andre anvendelser af datalingvistikken blevet fuldt så vigtige, fx informationssøgning i tekster, dialog på almindeligt sprog mellem menneske og maskine, avanceret stavekontrol og sproglig revision. Anvendt datalingvistik og taleteknologi betegnes nu ofte som language engineering eller sprogingeniørarbejde.

De to fremherskende metoder, der sædvanligvis bruges i datalingvistikken, er den regelbaserede metode og den statistiske metode. Den regelbaserede metode bygger på den antagelse, at korrekte sætninger på et hvilket som helst sprog er opbygget efter bestemte formelle regler. Datalingvisten forsøger altså at formulere de formelle regler, der gælder for et givet sprogs opbygning. Ved hjælp af et sådant regelsæt og en ordbog kan maskinen finde ud af, hvordan en given sætning er opbygget. Der kan formuleres regler for de fleste sproglige niveauer, fx morfologi, syntaks og semantik.

Den statistiske metode benytter avancerede statistiske modeller eller såkaldte neurale netværk. Denne fremgangsmåde forudsætter, at computeren kan trænes på et stort datamateriale i form af et tekstkorpus eller i form af tale, som er omskrevet til lydskrift. I træningsfasen opbygger de statistiske programmer hypoteser om sproglige regelmæssigheder ud fra de gentagelsesmønstre, der forekommer i datamaterialet. Derefter kan programmet anvendes på ukendte data. De statistiske metoder har først og fremmest fundet anvendelse inden for taleteknologien, nemlig ved talegenkendelse, dvs. maskinel oversættelse af sproglyde til skreven tekst, og ved talesyntese, dvs. maskinel oplæsning af skreven tekst. I løbet af 1990'erne har de statistiske metoder fået større udbredelse og anvendes i dag i stigende grad også til automatisk oversættelse og intelligent informationssøgning, se maskinoversættelse.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig