Big data en de Nitraatkaart

In het juninummer van het vakblad Bodem is een artikel van het RIVM gepubliceerd over hoe het RIVM met behulp van big data technieken de nitraatkaart heeft gemaakt. Hieronder volgt een samenvatting van dit artikel.

Machine learning techniek
Big data gaat niet alleen maar om veel data. Big data gaat vooral om het combineren van meer verschillende databestanden. Ieder met een eigen bron, eigen eigenschappen van de data en eigen data structuur.

Bij het RIVM passen we zogenaamde ‘machine learning’ technieken toe om grote datasets van ruimtelijke informatie te verwerken, en te combineren met monitoringnetwerken. Deze machine learning technieken zijn gebaseerd op zelf lerende computer algoritmen. Door de combinatie van machine learning, ruimtelijke gegevens (GIS-data) en resultaten van de monitoringnetwerken kunnen landsdekkende kaarten gemaakt worden. Een voorbeeld van zo'n kaart is de nitraatkaart.

Machine learning is geen kwestie van een druk op de knop. Er wordt vooral heel zorgvuldig naar de data gekeken. Op basis van de onderzoeksvraag en statistische eigenschappen van de data kiezen we een algoritme. De data wordt hierna in de juiste vorm omgezet. Vaak worden hierbij aparte procedures geprogrammeerd voor het omgaan met ontbrekende waarden en uitbijters. Via weer andere procedures wordt het gekozen algoritme geoptimaliseerd. Statische eigenschappen, zoals verklaarde variantie en predictie fout, zijn hierbij vaak leidende criteria. Door slimme keuzes te maken in data-voorbewerking, selectie van verklarende variabelen, algoritmes, en optimalisatie-procedures probeert de data scientist een zo optimaal mogelijk model te creëren.

De nitraatkaart
Om de nitraatkaart te maken zijn meetgegevens uit het LMM gecombineerd met veel verschillende databronnen, zoals landgebruiksgegevens, bodemkaarten, grondwaterstanden en statistieken over bemesting (stikstofbelasting). Om te komen tot een landsdekkende kaart worden de gegevens ook gecombineerd met de RIVM data van het Trendmeetnet Verzuring (TMV).

Model onzekerheden
De nitraatkaart is gebaseerd op een voorspelling van een statistisch model. Elk model heeft onzekerheden. Op basis van de gebruikte gegevens kan het model ongeveer 50% van de waargenomen regionale verschillen in de nitraatconcentraties verklaren, dit is de zogenaamde statistisch verklaarde variantie in het model. De overige 50% van de verschillen wordt veroorzaakt door factoren die niet in het model zijn opgenomen. Het Random Forest algoritme doet een groot aantal voorspellingen voor de nitraatconcentraties in Nederland. De nitraatkaart is de gemiddelde voorspelling. Om een indruk te geven van de bandbreedte van de voorspellingen is er ook een kaart gemaakt met het 10-90%-interval van de voorspelde waarden per 500 bij 500 m blok. Deze kaart staat in bijgevoegde figuur. De onzekerheden vertonen een duidelijk ruimtelijk patroon, daar waar de nitraatconcentratie het hoogst is, is ook de onzekerheid hoog. Dit is niet ongebruikelijk in statistische modellen. De verwachting is dat door het verder ontwikkelen van het model en gebruik te maken van meer (open) data, zoals de gegevens over de gewasrotatie, de onzekerheden in komende versie de kaart zullen afnemen.

 

 

Figuur 1 Kaart met het 10 - 90% betrouwbaarheidsinterval voor de individuele 500*500 meter blokken over 2012-2015.

Auteurs artikel Bodem:  Job Spijker, Astrid Vrijhoef (RIVM)

Samenvatting: Lara Graus (RIVM)                                           LMM e-nieuws, juni 2017

 

Deel dit artikel: