
Wat is Data Dregging (of Data Baggers)?
Data dregging, ook wel bekend als data bagging of p-hacking, is het proces waarbij mensen door enorme hoeveelheden data spitten op zoek naar patronen die hun vooropgezette ideeën bevestigen. Denk aan iemand die zo hard graaft in de statistieken dat er altijd wel iets uitkomt dat past bij hun verhaal. Het probleem? Meestal is dat resultaat puur toeval.
In lekentaal: je kunt in een willekeurige berg cijfers iets vinden dat lijkt op bewijs, maar eigenlijk zegt het niets.
Vergelijk het met iemand die zo lang in de wolken staart tot ze eindelijk die ene vorm zien die lijkt op een eenhoorn. Mooi, maar de rest van de lucht trekt zich er niets van aan.
Een Korte Geschiedenis van Data Dregging
Data dregging is niet nieuw. Sterker nog, het bestond al lang voordat computers massaal data verzamelden. In de jaren ’50 en ’60 speelden bedrijven met verkoopcijfers en correlaties, hopend dat er iets zou opvallen wat de volgende marketingcampagne kon voeden.
Een klassiek voorbeeld:
- In de jaren ’70 vonden onderzoekers een verband tussen het aantal ooievaars in bepaalde regio’s en een hoger geboortecijfer. Klinkt leuk, maar na wat verder graven bleek het simpelweg zo te zijn dat ooievaars vaker in landelijke gebieden voorkwamen, waar mensen meer kinderen kregen. Geen magie, gewoon toeval.
Tijdens de jaren ’90 kwam het internet op, en plotseling kon iedereen met een spreadsheet zich statistisch expert noemen.
Data Dregging in de 21e Eeuw: Pandemie, Politiek en X
De coronapandemie gaf data dreggers een gouden kans. Plotseling was iedereen epidemioloog, viroloog of statisticus (soms allemaal tegelijk). Grafieken, statistieken en modellen vlogen je om de oren, maar niet allemaal waren ze even betrouwbaar.
X.com (voorheen Twitter) is tegenwoordig het perfecte platform voor schreeuwers en data dregging. In slechts 280 tekens kan iemand een grafiek of statistiek delen zonder context, wat direct duizenden of miljoenen mensen bereikt. Dit leidt vaak tot misinterpretaties, overhaaste conclusies en het verspreiden van halve waarheden.
Sommige publieke figuren, ondernemers of journalisten presenteerden cijfers die vooral leken te bewijzen wat zij al lang dachten. Hoewel ventilatie, lockdowns of vaccinaties belangrijke onderwerpen waren, werd soms selectief met data omgegaan om een specifiek verhaal te vertellen.
Dit gebeurde niet alleen tijdens corona. Denk aan klimaatdiscussies, verkiezingsuitslagen en economische vooruitzichten. Data wordt vaak zo gepresenteerd dat het publiek zich zorgen gaat maken of juist gerustgesteld wordt, afhankelijk van de spreker.
Video Tip:
Voor een visueel voorbeeld van hoe data dregging kan worden toegepast en hoe eenvoudig het is om misleid te worden, bekijk deze video: Hoe je liegt met statistiek van Dr. Susan Oliver. Deze video legt op een toegankelijke manier uit hoe grafieken en data worden gemanipuleerd om overtuigende maar misleidende verhalen te vertellen.
Meer Voorbeelden: Sociale Media en AI
Naast klassieke voorbeelden, zien we tegenwoordig dus ook veel moderne vormen van data dregging.
Sociale Media Algoritmes en Politieke Polls
Bij grote verkiezingen zie je regelmatig berichten die claimen dat “een duidelijke meerderheid” een bepaalde kandidaat steunt. Dit wordt vaak onderbouwd met online polls of sociale media-analyse.
Probleem:
- Deze polls worden vaak gedeeld onder een specifieke doelgroep (bijvoorbeeld volgers van een bepaalde partij). Hierdoor lijkt het alsof de kandidaat massale steun heeft, maar het publiek dat wordt bevraagd is verre van representatief.
- Sociale media-algoritmes werken hetzelfde. Door interacties op basis van je eerdere voorkeuren, krijg je vooral berichten te zien die je mening bevestigen. Dit kan ertoe leiden dat je denkt dat jouw mening breed gedragen wordt.
Voorbeeld:
Een Facebook-poll in een groep van 100.000 volgers van partij X wijst uit dat 85% van de mensen partij X steunt. De conclusie: “Partij X gaat de verkiezingen winnen.” Wat wordt vergeten? De groep bevat vrijwel geen mensen die partij Y steunen.
AI en Gezondheidsdata
In de medische wereld worden enorme hoeveelheden data verzameld door AI om patronen te ontdekken. Data dregging komt hier om de hoek kijken als een AI-model tienduizenden variabelen analyseert en een klein (en toevallig) verband vindt tussen bijvoorbeeld koffieconsumptie en hartklachten.
Dit verband wordt soms in de media opgeblazen tot: “Koffie verhoogt risico op hartaanvallen met 30%.” In werkelijkheid is dit resultaat vaak een toevalligheid en wordt het niet ondersteund door breder wetenschappelijk onderzoek.
Wat maakt dit modern?
- AI kan veel meer data doorspitten dan ooit tevoren, waardoor de kans op toevallige patronen veel groter wordt.
- De snelheid van informatieverspreiding via platforms als X.com zorgt ervoor dat halve waarheden zich razendsnel kunnen verspreiden.
Waarom Doet Men Dit?
- Bevestigingsbias: Mensen willen graag gelijk hebben. Door data te selecteren die hun ideeën bevestigt, krijgen ze dat gevoel.
- Sensatie: Extreem klinkende statistieken trekken meer aandacht.
- Commercieel belang: Soms levert het simpelweg geld of status op.
- Onbegrip: Veel mensen snappen simpelweg niet hoe statistiek werkt (en eerlijk is eerlijk, dat is ook best een ingewikkeld vak).
Praktische Voorbeelden van Data Dregging
Hier zijn enkele fictieve voorbeelden die laten zien hoe makkelijk je data kunt laten “spreken”:
Data | Conclusie (fout) | Wat er echt speelt |
---|---|---|
Mensen met grote voeten verdienen meer | Grote voeten leiden tot succes | Volwassenen verdienen meer dan kinderen (en hebben vaak grotere voeten). |
Meer ijsconsumptie leidt tot meer verdrinkingen | IJs eten is gevaarlijk in de zomer | Mensen zwemmen vaker in de zomer (en eten ook meer ijs). |
Minder pannenkoekenverkoop = lagere misdaadcijfers | Pannenkoeken voorkomen criminaliteit | Beide dalen omdat het winter wordt. |
Hoe Herken Je Data Dregging?
- Onvolledige context: Er wordt slechts een deel van de data gepresenteerd.
- Geen peer review: Resultaten worden niet door vakgenoten gecontroleerd.
- Overdreven taalgebruik: Woorden als “onomstotelijk bewijs” of “de data liegen niet”.
- Te mooi om waar te zijn: De conclusie klinkt als iets dat te goed is om waar te zijn.
Hoe Bestrijd Je Het?
- Vraag om de volledige dataset.
- Zoek tegenstrijdige studies.
- Kijk naar wie het onderzoek heeft gefinancierd.
- Blijf kritisch: Ook als het iets bevestigt waar je het mee eens bent.
Tot Slot: De Grote Vraag
De volgende keer dat iemand je een grafiek onder de neus schuift met spectaculaire claims, vraag jezelf dan af:
- Waar komt deze data vandaan?
- Hoe is deze data verzameld?
- Wordt er iets weggelaten?
En als laatste: zou je dezelfde conclusie trekken als je alle cijfers zag, niet alleen de glimmende grafiek die perfect in iemands verhaal past?