B12. Regressieanalyse

Korte toelichting

De regressieanalyse is een statistische analyse die het mogelijk maakt verbanden tussen variabelen inzichtelijk te maken. Bijvoorbeeld het verband tussen overheidsuitgaven aan onderwijs en schoolprestaties. Hierbij kan zowel de aanwezigheid en omvang van het verband als het type verband (positief/negatief) worden onderzocht. In essentie duiden de resultaten van een regressieanalyse alleen op correlatie. Er zijn echter geavanceerde regressieanalyses die een causaal verband beter kunnen benaderen. Hieronder worden een aantal veelgebruikte typen regressieanalyses kort toegelicht.

Ordinary Least Squares (OLS)

Dit is de meeste simpele variant van regressie en maakt het mogelijk lineaire verbanden tussen twee of meer variabelen aan te tonen. Om deze analyse uit te kunnen voeren zijn er kwantitatieve indicatoren nodig van zowel de beleidsinterventie zelf als de uitkomsten. Als vuistregel wordt doorgaans aangehouden dat minimaal 30 waarden per variabele nodig zijn om deze analyse enigszins betrouwbaar uit te kunnen voeren. Bij voorkeur wordt er gebruik gemaakt van longitudinale data, wat betekent dat er per analyse eenheid meerdere waarnemingen zijn op verschillende punten in de tijd. Met longitudinale data is het mogelijk om rekening te houden met gebeurtenissen die niet gerelateerd zijn aan de beleidsinterventie, maar wel impact hebben op de uitkomst en/of effecten die inherent zijn aan unieke analyse-eenheden (bijvoorbeeld stad-specifieke kenmerken als gemeenten de analyse-eenheid zijn).

Two-Stage Least Squares (2SLS)

Dit is een geavanceerde variant van de OLS-regressie en maakt gebruik van een ‘instrumental variable’ om uit te sluiten dat een ontbrekende derde variabele die correleert met de beleidsinterventie en effect heeft op de uitkomsten de analyse vervuilt. Deze methode kun je toepassen wanneer je een instrumentele variabele kunt bedenken die (1) sterk gecorreleerd is met de indicator die je gebruikt om de beleidsinterventie te meten en (2) wanneer die instrumentele variabele in theorie niet aan de uitkomst gerelateerd is, behalve via de relatie met de beleidsinterventie.

Regression discontinuity

Hierbij wordt een strikt onderscheid benut tussen wie wel en niet geraakt worden door een beleidsinterventie (denk aan het natuurlijke experiment). Voor de NOW maatregel in de coronacrisis komen bijvoorbeeld alleen bedrijven in aanmerking met minimaal 20% omzetverlies. Door bedrijven die net wel en net niet profiteren van de maatregel te vergelijken kan een randomised control trial (RCT) benaderd worden. Hierbij is het wel belangrijk dat de doelgroep zelf (bedrijven) niet aan de relevante waarde (omzetverlies) kan sleutelen om wel of niet voor de beleidsinterventie in aanmerking te komen.

Differences-in-differences

Deze regressiemethode kan toegepast worden wanneer zich een natuurlijk experiment voordoet waarbij bijvoorbeeld de ene gemeente wel en de andere gemeente geen beleidsinterventie toepast. Door te kijken naar het verschil in de ontwikkeling over de tijd tussen de doelgroepen in de gemeenten voor- en na de beleidsinterventie is het mogelijk een causaal verband te benaderen.

Toepassingsgebied

Met de juiste toepassing en wanneer er voldoende kwantitatieve data beschikbaar zijn over de interventie en de output-variabelen is regressie-analyse geschikt om inzicht te krijgen in de causale effecten van beleidsinterventies . Dit is niet beperkt tot bepaalde beleidsterreinen. Een voorbeeld van de toepassing van 2SLS om de effecten van een beleidsinterventie in Nederland te duiden is onderzoek over het effect van een getrapte terugkeer naar werk op een succesvolle re-integratie op de arbeidsmarkt.

Eisen

Om bovenstaande methoden goed toe te passen is enige statistische kennis gewenst. Ook is het nodig toegang te hebben tot een statistisch computerprogramma zoals SPSS, STATA, R of Python. Over het algemeen geldt dat hoe meer hoogwaardige kwantitatieve data beschikbaar is voor de analyse hoe beter: dit geldt zowel voor het aantal analyse-eenheden waar data voor beschikbaar is als het aantal datapunten over de tijd.

Beperkingen

Met een simpele OLS-regressie alléén kunnen geen uitspraken gedaan over causale verbanden (er kan immers alleen correlatie aangetoond worden). Verder is de kwaliteit van de data cruciaal voor de kwaliteit van de uitkomsten. Wanneer de gebruikte indicatoren de interventie of de uitkomsten niet goed weergeven zullen de resultaten ongeacht welke regressie-methode men gebruikt tekortschieten. Regressieanalyses kunnen antwoord geven op de vraag of er een bepaald (beoogd) effect is door een maatregel. Je kunt ze niet gebruiken om te achterhalen waarom en hoe bepaalde maatregelen wel of niet werken. 

Kosten en doorlooptijd

De kosten en doorlooptijd bij een regressieanalyse zijn sterk afhankelijk van de kwaliteit en de omvang van de data en de hoeveelheid analyse. Wanneer voldoende hoogwaardige data beschikbaar is kan relatief snel – naar schatting binnen enkele maanden - een analyse worden opgeleverd. Indien de indicatoren nog moeten worden samengesteld en data nog moet worden verzameld kunnen zowel de kosten als de doorlooptijd flink toenemen.