Hvad er regressionsanalyse?

Regressionsanalyse er en statistisk metode, der bruges til at forstå og beskrive forholdet mellem to variable. Et mål med regression er at lave en matematisk model, der kan forudsige eller redegøre for sammenhænge mellem de to variable. Hvis du ejer en iskiosk, kunne du f.eks. være interesseret i hvilken sammenhæng, der er mellem temperaturen, og hvor mange is du sælger.

Der er findes flere typer af regression, der bruges til at passe forskellige typer data og forhold. Den simpleste form for regression kalder vi lineær regression.

Optimer dit sprog - Læs vores guide og scor topkarakter

Sådan bruger du materialet

Punktplot og regressionskoefficienter

Et punktplot er en grafisk repræsentation af den data, som du ønsker at lave en regression over. Dataene bestående af to variable indsættes som punkter i et koordinatsystem, hvor den ene variabel er x-koordinaten, og den anden variabel er y-koordinaten. Man bruger den uafhængige variabel som x-koordinaten og den afhængige variabel som y-koordinaten. F.eks. kunne temperaturen være den uafhængige variabel og antal solgte is være den afhængige variabel, fordi vi regner med, at antal solgte is afhænger af temperaturen.

Ud fra et punktplot kan man lave regression, altså finde den funktion der passer bedst på punktplottet. Koefficienterne i funktionen kaldes regressionskoefficienterne.

Forklaringsgrad
Forklaringsgraden, R2, er et mål for, hvor godt den matematiske model forklarer de datapunkter, som der er lavet regression over. Generelt er der en god forklaringsgrad, hvis den ligger tæt på 1, hvilket indikerer en god sammenhæng mellem de variable som undersøges. En forklaringsgrad tæt på 0 indikerer, at der ikke er nogen sammenhæng mellem variablene.

Typer af regression

Vi laver lineær regression, når vi opstiller en model på formen som linjens ligning y=ax+b. Den grafiske repræsentation af denne linje kaldes regressionslinjen, og a og b er regressionskoefficienterne. a er linjens hældning, og b er linjens skæring med y-aksen. Den lineære regression er den rette linje, der bedst beskriver datapunkterne, dvs. kommer tættest muligt på de reelle datapunkter. Mindste kvadraters metode er en metode til at finde den linje, der bedst beskriver datapunkterne. Konfidensinterval for hældningen a, er et interval, som hældningskoefficienten a med 95% sikkerhed reelt befinder sig i. Dvs. at der i dette begreb medregnes de usikkerheder, der er ved at lave en matematisk model. Man kan bestemme konfidensintervallet i sit CAS-værktøj, og det kan være en vigtig del af at vurdere, hvor god en lineær model er.

Mindste kvadraters metode

Mindste kvadraters metode bruges bl.a. til at finde den bedste rette linje. Man indtegner afstanden mellem datapunkterne og den matematiske model og bruger denne afstand som sidelængden i et kvadrat. For at finde den bedste rette linje kan man nu forsøge at minimere det samlede areal af kvadraterne, og dette er ’mindste kvadraters metode’.

Vurder en lineær regression

1. Vurder forklaringsgraden, R2. Er forklaringsgraden tæt på 1? Som hovedregel skal værdien for R2 være større end 0,95, for at vi kan tale om en god lineær model. 2. Undersøg 95%-konfidenintervallet for hældningen, a. Find 95%-konfidensintervallet for a. Vurder herefter om sammenhængen er nogenlunde den samme, uanset hvilken værdi i intervallet a reelt måtte have. Hvis a indenfor et 95%-konfidensinterval f.eks. kan være både positiv og negativ, så kan vi ikke bruge modellen.