NIEUWS

Open Data: waarom loopt het vaak in de soep?


Door overheden wereldwijd wordt er steeds meer data vrijgegeven. Toch eindigt een ontwikkelaar regelmatig met zijn handen in het haar bij het gebruiken van open data. Open data is de vrije ontsluiting van informatie, geschikt voor computers, zonder beperkingen in gebruik. Helaas loopt het veelal in de soep.

door Lex Slaghuis, CTO Open State Foundation

IMG_1121

Niet zonder beperkingen

Het vrijgeven van open data confronteert overheden met de stelling dat `€˜derden’ zo maar met `€˜hun’ data aan de slag kunnen. Dat kan toch niet goed gaan? `€˜Zij’ weten niet hoe deze data zorgvuldig te interpreteren is. Voor dat je het weet gaan mensen maar wat roepen, zonder dat ze weten hoe de vork in de steel zit. Joy’s Law zegt `€œNo matter who you are, most of the smartest people work for someone else.`€ Helaas houdt dit overheden niet tegen om beperkingen in het gebruik op te leggen, met een licentie of overeenkomst. En dit is een rem op toepassing van data om drie redenen:

1. Minder hergebruik

Ten eerste worden bepaalde gebruiksvormen uitgesloten bij het  toepassen van een licentie of overeenkomst. Zo zeggen de voorwaarden van de NS-Api (PDF) : `€˜Gebruiker zal er zorg voor dragen dat hijzelf en Derden de API direct of indirect, uitsluitend gebruiken voor het informeren van reizigers over in de toekomst te maken reizen in het openbaar vervoer.’ Ik ben geen jurist, maar het gebruiken van de NS api om bijvoorbeeld de kans op vertraging te berekenen lijkt mij hierdoor al niet mogelijk. Met dit soort clausules wordt het voordeel van open data, de veelzijdigheid van mogelijke toepassingen, teniet gedaan.

2. Geen gecombineerd hergebruik

Een licentie of gebruiksovereenkomst heeft veelal een virale bijwerking die bij datasets het combineren en filteren tegengaat. Immers, bij het combineren reist de vraag welke licentie geldig is, en welke licentie prevaleert boven de andere. Doordat je deze vraag vaak niet eenduidig kunt beantwoorden, kan de data niet gebruikt worden.

3. Geen internationaal hergebruik

Daarbovenop wordt nog wel eens vergeten dat technologische innovatie een spel is dat zich niet veel aantrekt van taal en landsgrenzen.

Hoe weet ik of ik een dataset uit China zomaar mag gebruiken? Overmatig gebruik van licenties levert belemmeringen voor internationaal hergebruik, want misschien mag ik de data wel gebruiken, maar hoe kom ik daar achter? Een bedrijf als Factual heeft hier last van.

Open data zonder rechten

Nu is het juridisch nog maar de vraag of datasets onder dergelijke licenties bij de rechtbank stand houden, maar als ontsluitende partijen er misbruik in zien, komt dat de verstandhouding zeker niet ten goede. Dit is problematisch, want ik ben niet enkel afhankelijk van de beschikbare data op dit moment, ik wil ook in de toekomst nieuwe data ontvangen. Helaas is er geen fundamenteel recht op open data.

Creative Commons Zero

Simpel gezegd is er maar een geschikte manier voor overheden om open data beschikbaar te stellen, en dat is zonder beperkingen. En dat is precies waarvoor Creative Commons Zero  is gemaakt. Dus laten we er gebruik van maken!

Geen vrije ontsluiting

De overheid werpt nog wel eens per ongeluk meer barrières op als het gaat om open data. Zo zijn er overheden die van gebruikers vragen om zich te identificeren alvorens ze toegang tot de open data krijgen. Ze zijn benieuwd wie er gebruik van maakt, willen de toegang tot de data in de gaten houden of de capaciteit voor de ontsluiting bewaken. Ik heb de NASA, met de grootste en meest gebruikte dataset ter wereld, de satelliet data, trouwens nog nooit gehoord over capaciteitsproblemen. Informatie is pas vrij ontsloten als ik met één link de data kan krijgen.

4. Identificatie is onnodige beperking van de privacy

En hier zit ook nog een fundamenteel probleem. Waarom zou ik niet anoniem open data kunnen gebruiken? Ik hoef me toch ook niet te identificeren om op de website van de gemeente informatie op te zoeken? Het gaat de overheid geen bal aan waar ik mee bezig ben. Waarom zou de overheid persoonlijke informatie verzamelen over het gebruik van open data?

5. Identificatie schaalt niet

Maar goed, aan principes heeft een open data-ontwikkelaar niet veel. Als je open data achter inlog-codes en sleutels zet, schaalt het niet. Een login-code aanmaken is geen probleem, totdat je dit bij 400 gemeenten moet gaan doen. Een verspilling van je tijd. Het bouwen van een wereldwijde app wordt hierdoor een belachelijke onderneming.

6. Identificatie en licenties belemmeren distributie

Nu kan ik als nerd voor mijn eigen land of gemeente identificeren en de data ophalen. Om vervolgens deze data op het internet te delen met soortgenoten in een gedeelde database. Ware het niet dat de bijbehorende licenties vaak het verspreiden van data weer uitsluiten. Wil je de wereld veranderen, krijg je dat? Kortom, zet de data echt open en laat daarmee een deel van de distributie over aan anderen.

Niet geschikt voor computers

De meeste ambtenaren snappen inmiddels wel dat het verstoppen van informatie uit Excel- bestanden in PDF-documenten toch echt geen open data is. Toch is er nog een wereld te winnen, als het gaat om het gebruik van de juiste bestandsformaten. Een voorbeeld is het het CIBG zorg-informatie als open data beschikbaar stelt in Excel- en SPSS-bestanden. In de regel is het veel makkelijker een computerprogramma te maken op basis van open bestandsformaten, dan op basis van een gesloten formaat.

7. Bureaucratie hindert computerprogramma’s

Het kan nog erger, het verplicht stellen van registratie of het aanmaken van een inlog-sleutel. Het zal je verrassen, maar computerprogramma’s zijn erg slecht in het invullen van formulieren waarbij ze persoonsgegevens moeten afgeven. Trek een streep door toepassingen die het internet afstruinen op zoek naar interessante data om deze volledig geautomatiseerd in te laden en her te gebruiken. Toekomstmuziek, denk je? Het Linked Open Data Web van Tim Berners Lee is juist gebaseerd op data die overal en nergens is.

8. API’s belemmeren toegang tot data

Waar vroeger veel overheidsinformatie werd opgehaald met een webcrawler, blijkt dat je tegenwoordig ook nog flink moet `€˜hacken’. Hoe komt dat? De overheid laat zich graag inspireren door het bedrijfsleven waar webplatformen als FlickrAmazon en Facebook tooien met sexy API’s. Een API (Application Program Interface) is een ingang naar informatie die als een dienst ontworpen is. Maar de overheid is niet het bedrijfsleven. Bedrijven leveren diensten en kunnen daar een ingang voor computerprogramma aan toe voegen zodat er toepassingen bovenop deze diensten worden ontwikkeld.

De overheid is geen bedrijf

Bij de overheid ligt dit toch iets anders. Immers, er is een belang om de publieke zaak te dienen. En dat betekent dat het gebruik van open data, dat wel maatschappelijke waarde levert, maar niet enkel een verlengstuk van een dienst is, ook bestaansrecht heeft. Kortom, er dienen geen (technische) beperkingen te bestaan op hergebruik. Dit is precies het tegenovergestelde van het bedrijfsleven, waar mensen hergebruik zo veel mogelijk langs de belangen van het bedrijf willen laten lopen.

Nu denk je, waarom is een sexy API een vorm van een beperking? Nou, een API is een ingang naar informatie. Maar zoals bij elke ingang, worden er keuzes gemaakt. Is het een schuifdeur of een draaideur, de breedte van de deur, de hoogte van de deur. Deze keuzes bepalen het uiteindelijke gebruik en het gemak waarmee de data verkregen en benut kan worden.

Flickr als bedrijf met een API

Zo kan je de fotodatabase van Flickr vragen om een beeld uit te leveren en aanvullende metadata beschikbaar te stellen. Wat niet mogelijk is, is om de namen van alle foto’s uit de Flickr Database op te vragen. Vanuit het oogpunt van Flickr een verstandige keuze, voor dat je het weet gaat een concurrent aan de haal met je database! Maar bij de overheid zou er geen reden moeten zijn om dit niet te doen. Op het moment dat overheden API’s inrichten, maken ze ontwerpkeuzes die het hergebruik beïnvloeden.

9. API’s creëren een kunstmatige schaarste

Zo heeft de Rijksdienst Wegverkeer (RDW) een Azure API op de voertuigendatabase in Nederland. Deze `€˜dienst’ van het RDW maakt het onmogelijk om te zien welke auto’s van de weg zijn gehaald, dus om geëxporteerde (verwijderde) oldtimers te identificeren zal je de hele database moeten vergelijken met een oude versie. Hierbij is het niet mogelijk om alle auto’s in één keer op te halen, dit gaat in blokken van bijvoorbeeld 200.000 stuks. Het gevolg? Urenlange communicatie tussen Apps en de database om de 9 miljoen voertuigen bij te werken.

Hierdoor ontstaan er capaciteitsproblemen, en daarom willen ze (terecht) dat ik mezelf identificeer. Hoezo van het kastje naar de muur? En dat terwijl een gecomprimeerde kopie van de volledige database in een paar minuten te downloaden is. Bovendien staat het op je eigen computer, waardoor je bij een government shutdown lekker verder kunt werken. Snap jij het nog?

Deze blogpost van Lex Slaghuis verscheen eerder op Frankwatching.