D8. Nieuwe, innovatieve manieren om online (big) data te verzamelen

Korte toelichting

De toegenomen digitale connectiviteit in onze samenleving resulteert in een explosieve groei van gegevensstromen (bv. locatiedata, surfgedrag, videobeelden, online betalingen) afkomstig van talloze en digitaal onderling verbonden apparaten (smartphones, laptops, tablets, sensoren, camera’s, navigatiesystemen, etc.). Ook delen steeds meer gebruikers (persoonlijke) informatie via sociale netwerken en andere apps. Deze gegevens kunnen ook verzameld worden voor een evaluatie. Om goed gebruik te kunnen maken van de verscheidenheid, complexiteit, hoeveelheid en snelheid van databronnen zijn er ook aanpassingen nodig in de methoden en technieken in de datawetenschappen.

Toepassingsgebied

De toegenomen digitale connectiviteit en de daaruit voortkomende grote gegevensstromen creëren op hoofdlijnen twee nieuwe mogelijkheden. We kunnen bestaande methoden van evaluatieonderzoek (1) vervangen en/of (2) verbeteren c.q. aanvullen. Aangezien de groeiende gegevensstromen in de gehele samenleving voorkomen, kunnen deze methoden in vrijwel alle beleidsterreinen worden ingezet.

Je kunt deze methoden ook gebruik om evaluaties te verbeteren. Aan de hand van de Veiligheidsmonitor en processen-verbaal kun je bijvoorbeeld het gevoel over) de veiligheid in een gemeente in kaart brengen. Je kunt deze gegevens echter verbeteren of aanvullen met discussies op sociale media, in buurt-apps, etc. Conventionele methoden (waaronder het hergebruik van administratieve data) zijn beperkt tot het niveau van het onderzoeksobject zelf (individuele burgers of bedrijven). De kracht van big data is dat ook op het niveau eronder (bv. uitingen via analyse van social media, verplaatsingen via mobiele data, online gedrag via webstatistieken) data automatisch kan worden verzameld en geanalyseerd (bijvoorbeeld middels webscraping waarbij software wordt gebruikt om informatie van webpagina's te halen en eventueel te analyseren).

Eisen

Het gebruik van big data in evaluatieonderzoek stelt verschillende eisen:

  • Het gebruik van big data in evaluatieonderzoek vraagt om zowel nieuwe expertises (big datavaardigheden) als om de koppeling van bestaande expertises zoals data-, evaluatie- en beleidsinhoudelijke vaardigheden . Het verzamelen, bewerken, koppelen en analyseren van zeer grote databestanden vraagt om vaardigheden waar ‘traditionele’ onderzoekers nog weinig over beschikken. Andersom zijn ‘traditionele’ onderzoekers vaak beter in het definiëren van de onderzoeksvragen, en in het beoordelen van de praktische bruikbaarheid van de (big) data. Ook de betrokkenheid van inhoudelijke deskundigen is van essentieel belang om potentiële datasets te identificeren.
  • Nagegaan moet worden of het verzamelen, koppelen en bewerken van grote en openbare databronnen voldoet aan ethische en juridische regels, bijvoorbeeld ten aanzien van de waarborg van bescherming van persoonsgegevens. 
  • Het gebruik van big data vraagt om een soort onbevangenheid als opdrachtgever en evaluator. Bij de beantwoording van een evaluatievraag kan verkend worden of er externe of “ongebruikelijke” databronnen beschikbaar en relevant kunnen zijn voor de evaluatie.

Beperkingen

Het gebruik van big data in evaluaties kent enkele beperkingen:

  • Databronnen bevatten veelal ongestructureerde en onbewerkte en dus ruwe gegevens die niet verzameld zijn met het oog op een evaluatie. Het kan een (kostbare) bewerkingsslag vergen voordat zij geschikt zijn voor een evaluatie.
  • De verzamelde gegevens zeggen iets over kennis, houding en gedrag van doelgroepen, en mogelijk ook veranderingen hierin over de tijd. In de meeste gevallen zullen de gegevens geen basis zijn om een uitspraak te doen over causaliteit (tussen beleidsmaatregel en effect).
  • Mogelijk zijn bepaalde doelgroepen nauwelijks digitaal actief of worden sommige gedragingen helemaal niet digitaal geregistreerd. Big data-analyses zijn dus eerder ondersteunend aan een evaluatieonderzoek dan dat zij vervangend zijn.
  • Niet alle data kunnen eenvoudig worden verzameld, omdat steeds meer organisaties die over deze data beschikken er (concurrentie)voordelen mee kunnen behalen. Tegelijkertijd zien we ook steeds meer initiatieven om grote datasets juist voor iedereen toegankelijk te maken. 

Kosten

De kosten van het gebruik van big data zijn moeilijk in te schatten, omdat vooraf vaak niet bekend is welke datasets tegen welke voorwaarden beschikbaar zijn. Kosten kunnen oplopen naarmate sets gekocht en bewerkt moeten worden (kan specialistische kennis vergen), zeker als aanbieders datamonopolist zijn. Ten opzichte van traditionele (handmatige en dus arbeidsintensieve) dataverzamelingsmethoden is het opschalen van automatische methoden aanzienlijk makkelijker. Bij het verzamelen, verwerken en analyseren van grote hoeveelheden data zijn big data technieken relatief goedkoop.