Logistisk regression

Logistisk regression er en statistisk model, der anvendes, når vi ikke har en kontinuerlig afhængig variabel, men eksempelvis en binær afhængig variabel. Vi vil her fokusere på en binær logistisk regression. Dette er relevant når vi vil undersøge om en borger stemte ved et valg, om et land er i krig eller ej, om en person er arbejdsløs eller i arbejde osv.

Der er tre grundlæggende problemer forbundet med at bruge ordinær lineær regression (OLS) på binære afhængige variable, som den logistiske regression ikke har. For det første har vi med OLS regressionen muligheden for at få forudsagte sandsynligheder mindre end 0 og større end 1. Det giver som bekendt ingen mening at tale om en sandsynlighed for, at en afhængig variabel har værdien 1, der er eksempelvis 125%. For det andet får vi ikke-normaltfordelte fejlled og heteroskedasticitet, der fører til forkerte standardfejl (der vil påvirke vores signifikanstest). For det tredje den funktionelle form, hvor vi antager, at effekten af β er konstant.

I tilfælde hvor man har en binær afhængig variabel, vil en OLS regression derfor ikke være den bedste løsning, og en logistisk regressionsmodel vil være et bedre analysevalg.

Procedure

Der er overordnet tre trin, man kan gennemføre, for at få mest muligt ud af ens logistiske regressionsanalyse. For det første skal man gennemføre en specifikation og estimering af modellen, som man også skal med andre regressioner. For det andet skal vi bruge resultaterne fra analysen til at kalkulere såkaldt forudsagte sandsynligheder. For det tredje skal vi visualisere disse sandsynligheder. Sidstnævnte trin er især vigtigt, hvis der er mange forudsagte sandsynligheder (hvis man eksempelvis ønsker at udregne forudsagte sandsynligheder for en kontinuerlig uafhængig variabel med mange kategorier). Tabel 1 viser et overblik over disse tre trin.

Tabel 1: De tre trin i en logistisk regressionsanalyse


Procedure Beskrivelse Fokus
1 Estimering Tolkning af output fra den logistiske regressionsanalyse Funktionel form og forudsætninger
2 Kalkulation Sandsynlighed for at den afhængige variabel er 1 givet bestemte værdier af den uafhængige variabel Udregning af forudsagte sandsynligheder
3 Visualisering Visualisering af forudsagte sandsynligheder Usikkerhed og fordeling

OLS og logistisk regression: forskelle og ligheder

Modsat en OLS regression, der anvender mindste kvadraters metode, anvender logistisk regression en maximum likelihood estimationsmetode. Med maximum likelihood estimeringen søger vi den sandsynlighedsfordeling, gennem iterationer, der passer bedst til vores observerede data (altså den distribution der maksimerer sandsynligheden for at passe til de data, vi har).

Tabel 2 giver et overblik over de væsentlige forskelle og ligheder mellem OLS og logistisk regression.

Tabel 2: Ligheder og forskelle mellem OLS og logistisk regression


OLS Logistisk
Afhængig variabel (y) Intervalskaleret Kategorisk
Udfaldsrum for y Fra -∞ til +∞ Fra 0 til 1
Uafhængige variable (x) Alle typer af variable Alle typer af variable
Funktionel form, effekt af x Konstant Varierer
Koefficienter for x Intuitiv tolkning Mindre intuitiv tolkning
Determinationskoefficient Pseudo R²
Funktion Lineær Ikke-lineær
Estimation Mindste kvadraters metode Maximum likelihood

Huskeliste

Der er flere ting, man skal tage højde for, når man gennemfører en logistisk regression, og nedenstående tjekliste giver et par gode råd til, hvad man skal huske:

  1. Inspicer den afhængige variabel (sørg for at have styr på kodningen, så den kun har 0 og 1)
  2. Er essentielle informationer rapporteret i regressionstabellen?
    1. Koefficienter for de uafhængige variable
    2. Standardfejl for de uafhængige variable
    3. Antal observationer i modellen
    4. Log-likelihood for modellen
    5. Pseudo R² for modellen
  3. Kalkuler forudsagte sandsynligheder
    1. Rapporter hvordan de er kalkuleret
  4. Lav en visualisering af resultaterne
    1. Undersøg om der er tilstrækkeligt med information inkluderet i visualiseringen af de forudsagte sandsynligheder? (Eksempelvis konfidensintervaller for forudsagte sandsynligheder og distributionen af den uafhængige variabel)

Videre læsning

For en mere udførlig introduktion til logistisk regression samt eksempler henvises til Larsen (2017). Her gives også en introduktion til, hvordan logistisk regression implementeres i Stata og SPSS. For mere om den logistiske regression, gives der en introduktion til flere praktiske funktioner i Stata i kapitel 11 i Sønderskov (2014). For en pædagogisk introduktion til logistisk regression i programmet R, henvises der til kapitel 5 i Gelman og Hill (2007). For endnu en introduktion til at fortolke resultaterne fra logistiske regressioner, se Breen et al. (2018).

Referencer

Breen, R., K. B. Karlson og A. Holm. 2018. Interpreting and Understanding Logits, Probits, and Other Nonlinear Probability Models. Annual Review of Sociology 44: 39-54.

Gelman, A. og J. Hill. 2007. Data Analysis Using Regression and Multilevel/Hierarchical Models. New York: Cambridge University Press.

Larsen, E. G. 2017. Logistisk regression med binært udfald, pp. 47-64 i Hussain, M. A. & J. T. Lauridsen (eds.), Videregående kvantitative metoder. Samfundslitteratur.

Sønderskov, K. M. 2014. Stata – en praktisk introduktion. København: Hans Reitzels Forlag.

Skrevet af: Erik Gahner Larsen