Category: Statistik

Lasso regression

Lasso står for “least absolute shrinkage and selection operator” (Tibshirani 1996). Lasso regression er en teknik inden for maskinlæring, der især anvendes når man arbejder med data med mange dimensioner. Konkret begrænser man en models fleksibilitet gennem regularisering ved hjælp af en tabsfunktion. Lasso er især anvendeligt når vi har en lang række af uafhængige …

Lasso regression Læs mere »

Maskinlæring

Maskinlæring er en betegnelse for en række statistiske procedurer, der har det til fælles, at de anvender algoritmer til at udlede information og viden fra data. Forskellige maskinlæringsteknikker kan kategoriseres efter, hvordan de udleder viden fra data, altså hvordan de “lærer”. Med andre ord kan maskinlæring forstås som algoritmer, der uden at bero på domæne-specifik …

Maskinlæring Læs mere »

Simpsons paradoks

Simpsons paradoks kan forstås som et fænomen, hvor der er en korrelation mellem to variable i en bestemt retning, evt. en positiv korrelation, men som er produktet af korrelationer i en modsat retning inden for bestemte grupper. Figur 1 nedenfor viser dette illustreret med karakterer fra The Simpsons. Bemærk dog, at Simpsons paradoks er opkaldt …

Simpsons paradoks Læs mere »

Spuriøs sammenhæng

En spuriøs sammenhæng er en korrelation mellem to variable, der ikke er kausal, da en tredje variabel eller tilfældigheder er grunden til, at der er en korrelation mellem de to variable. Oftest tales der om en spuriøs sammenhæng, når en sammenhæng ikke er korrekt eller som teoretisk forventet. Simon (1954) opererer således med en distinktion …

Spuriøs sammenhæng Læs mere »

Logistisk regression

Logistisk regression er en statistisk model, der anvendes, når vi ikke har en kontinuerlig afhængig variabel, men eksempelvis en binær afhængig variabel. Vi vil her fokusere på en binær logistisk regression. Dette er relevant når vi vil undersøge om en borger stemte ved et valg, om et land er i krig eller ej, om en …

Logistisk regression Læs mere »

Gennemsnit (aritmetisk)

Gennemsnittet (på engelsk mean) er et tal der viser den gennemsnitlige værdi i et datasæt. Dette tal defineres som summen af værdier divideret med antallet af værdier. Matematisk kan gennemsnittet skrives som: Eksempel: Vi har værdierne {4,9,13,18,26} og skal finde gennemsnittet af disse 5 værdier. Den gennemsnitlige værdi er dermed 14. Vær opmærksom på, at …

Gennemsnit (aritmetisk) Læs mere »