Category: Statistik

Maskinlæring

Maskinlæring er en betegnelse for en række statistiske procedurer, der har det til fælles, at de anvender algoritmer til at udlede information og viden fra data. Forskellige maskinlæringsteknikker kan kategoriseres efter, hvordan de udleder viden fra data, altså hvordan de “lærer”. Med andre ord kan maskinlæring forstås som algoritmer, der uden at bero på domæne-specifik…

Simpsons paradoks

Simpsons paradoks kan forstås som et fænomen, hvor der er en korrelation mellem to variable i en bestemt retning, evt. en positiv korrelation, men som er produktet af korrelationer i en modsat retning inden for bestemte grupper. Figur 1 nedenfor viser dette illustreret med karakterer fra The Simpsons. Bemærk dog, at Simpsons paradoks er opkaldt…

Spuriøs sammenhæng

En spuriøs sammenhæng er en korrelation mellem to variable, der ikke er kausal, da en tredje variabel eller tilfældigheder er grunden til, at der er en korrelation mellem de to variable. Oftest tales der om en spuriøs sammenhæng, når en sammenhæng ikke er korrekt eller som teoretisk forventet. Simon (1954) opererer således med en distinktion…

Logistisk regression

Logistisk regression er en statistisk model, der anvendes, når vi ikke har en kontinuerlig afhængig variabel, men eksempelvis en binær afhængig variabel. Vi vil her fokusere på en binær logistisk regression. Dette er relevant når vi vil undersøge om en borger stemte ved et valg, om et land er i krig eller ej, om en…

Gennemsnit (aritmetisk)

Gennemsnittet (på engelsk mean) er et tal der viser den gennemsnitlige værdi i et datasæt. Dette tal defineres som summen af værdier divideret med antallet af værdier. Matematisk kan gennemsnittet skrives som: Eksempel: Vi har værdierne {4,9,13,18,26} og skal finde gennemsnittet af disse 5 værdier. Den gennemsnitlige værdi er dermed 14. Vær opmærksom på, at…

Close
Menu