• Artiklens indhold er godkendt af redaktionen

regressionsanalyse

Oprindelig forfatter AMil Seneste forfatter Redaktionen

Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.

Regressionsanalyse r anvendes til at illustrere årsagssammenhængen mellem to variabler. Her ses de sammenhørende værdier af areal og pris for en række parcelhusgrunde, som er markeret med sorte punkter. Med rødt er indtegnet den bedst mulige linje, regressionslinjen, der er estimeret vha. mindste kvadraters metode. De lodrette sorte linjer markerer residualerne.

regressionsanalyse, statistisk analysemetode, der søger at bestemme sammenhænge mellem en responsvariabel y og en række forklarende variable x1, ... ,xp. Regressionsanalyse har sit udspring i F. Galtons undersøgelser fra 1870'erne af sammenhængen mellem fædres højde og deres sønners højde. Teorien er blevet udviklet betydeligt, og regressionsanalyse er i dag et centralt emne i anvendt statistik. Der er udviklet en række almindelig tilgængelige computerprogrammer, som kan udføre beregningerne i regressionsanalyse og dermed lette anvendelsen betragteligt.

Sammenhængen mellem responsvariabel og forklarende variabel kan generelt formuleres som en funktionssammenhæng,
y = f (x1, ... ,xp,β1, ... ,βk),
hvor βi er en række parametre. I regressionsanalyse ønsker man dels at undersøge, om der er en sammenhæng af en vis type (fx at f er lineær), dels at estimere de indgående parametre. Regressionsanalyse kan anvendes til at teste en kendt teoretisk årsagssammenhæng, men man kan ikke udelukkende ud fra fx målinger af fædres og sønners højder afgøre, om sønnernes højde afhænger af fædrenes eller omvendt, eller om de afhænger af en helt tredje faktor, der indvirker på begge.

Simpel lineær regression

Hvis man kun har en enkelt forklarende variabel x og ønsker at undersøge, om responsvariablen y afhænger lineært af x, taler man om en simpel lineær regression. Et eksempel er sammenhængen mellem en parcelhusgrunds pris y og dens areal x, hvor en lineær sammenhæng
y = β0+β1x
med rimelighed kan antages. Foreligger der data, dvs. observerede sammenhørende værdier af areal og pris, vil det lineære udtryk imidlertid ikke være eksakt opfyldt, da en række andre faktorer end arealet kan påvirke prisen. Derfor indføres et restled, ei, der indeholder alle karakteristika, som påvirker prisen på den i'te grund ud over arealet. Den statistiske model bliver derved, at prisen på den i'te grund er givet ved
yi = β0+β1xi+ei.
I modellen opfattes e'erne som stokastiske variable, fx normalfordelte, med middelværdi 0.

Tallene β0 og β1 er modellens parametre, der normalt ikke kendes. Derfor skal de estimeres i den statistiske analyse. Det gøres normalt ved mindste kvadraters metode. Hvis et statistisk test for hypotesen β1 = 0 viser, at den må forkastes, har man påvist en sammenhæng mellem x og y.

Multipel lineær regression

Har man flere forklarende variable, x1, ... ,xp, er
yi = β0+β1xi1+ ∙∙∙ +βpxip+ei
en multipel lineær regressionsmodel. Som i det simple tilfælde kan parametrene estimeres vha. mindste kvadraters metode.

Ikke-lineær regression

I mange tilfælde er det lineære funktionsudtryk velbegrundet, fx baseret på en fysisk lovmæssighed. Eventuelt kan en transformation, fx med logaritmen, linearisere funktionen. I andre tilfælde kan et lineært udtryk kun opfattes som en første approksimation til et mere kompliceret funktionsudtryk.

Annonce

Det er imidlertid også muligt at estimere parametre og teste hypoteser direkte i statistiske modeller af formen
yi = f (xi, ... ,β1, ... ,βk)+ei,
hvor f er en ikke-lineær funktion.

Logistisk regression

I modellerne ovenfor opfattes y som et observerbart tal. Imidlertid kan man også anvende forklarende variable i tilfælde, hvor y selv er en parameter i mere sammensatte modeller. Det simpleste eksempel er den logistiske regressionsmodel, hvor y repræsenterer sandsynligheden θ for, at en hændelse indtræffer. Da et lineært udtryk kan antage vilkårlige talværdier, mens en sandsynlighed kun kan variere mellem 0 og 1, er det nødvendigt at transformere sandsynlighederne. Som model anvender man derfor198130.401.jpg

hvor θi betegner sandsynligheden for hændelsen for den i'te observation. Samme tankegang kan også anvendes i modeller baserede på andre fordelinger, fx Poisson-fordelingen.

Referér til denne tekst ved at skrive:
Anders Milhøj: regressionsanalyse i Den Store Danske, Gyldendal. Hentet 21. oktober 2017 fra http://denstoredanske.dk/index.php?sideId=149736