NIEUWS

‘Overheid, stop met PDF-bestanden!’


Overheidswebsites staan er vol mee: PDF-bestanden! Rapporten, verslagen, begrotingen of formulieren, bijna allemaal in PDF. Lisette Kalshoven en Tom Kunzler van Open State Foundation vinden dat overheden het overmatige gebruik van PDF-bestanden moeten indammen. Deze column verscheen op 5 augustus 2019 op iBestuur.

De Britse overheid publiceerde in juli 2018 een artikel met de titel ‘Why GOV.UK content should be published in HTML and not PDF’. De Nederlandse overheid kan op dit gebied veel leren van het Verenigd Koninkrijk. Waarom gebruiken zoveel Nederlandse overheden PDF-bestanden wanneer er grote nadelen zijn? Wat zijn de argumenten voor- en tegen en wat zijn de alternatieven?

‘PDF, dat moet toch van de webrichtlijnen en het archief?’

PDF-bestanden zijn handig. Iedere computer, tablet of smartphone kan deze bestanden openen omdat het een open bestandsformaat is. De PDF-bestanden zien er ook nog eens altijd hetzelfde uit. Geen verspringende kopjes of gekke opmaak zoals bij andere bestanden nog wel eens gebeurd. PDF-bestanden zijn ook nog eens eenvoudig te maken met de meeste software.

Voorleessoftware voor mensen met een visuele beperking kan goed overweg met de meeste PDF-bestanden, al gaan hier ook nog vaak dingen mis met de verkeerde PDF-standaard of een slechte structuur. Dit is van belang om iedereen toegang te geven tot overheidsinformatie conform de webrichtlijnen. We horen ook vaak dat PDF een veilig bestandsformaat is om te publiceren omdat ‘PDF-bestanden niet aanpasbaar zijn’.  Tot slot zou het archief PDF-bestanden vereisen voor duurzame opslag en staat PDF op de ‘pas toe of leg uit’ lijst van het Forum Standaardisatie. We hoorden deze argumenten vaak bij het publiceren van de verkiezingsuitslagen in een herbruikbare variant. Het ministerie van Binnenlandse Zaken vroeg gemeenten csv-bestanden te publiceren, maar een groot deel van de gemeenten maakte er een PDF-bestand van.

PDF als gedigitaliseerd papier

PDF-bestanden zijn inderdaad lastiger aan te passen dan Microsoft Word of Microsoft Excel bestanden, maar met een PDF-editor is het zeker nog steeds mogelijk om dingen aan te passen. Belangrijker is dat het moeilijkere aanpassen van documenten een groot nadeel is. Wanneer gebruikers van overheidsinformatie gestructureerde teksten goed willen analyseren of cijfers uit tabellen willen combineren dan is dit erg tijds- en arbeidsintensief met een PDF-bestand.

Wanneer je informatie vanuit een PDF-bestand kopieert en plakt weet dat dit vaak niet goed gaat, de letters verspringen, kopjes komen niet mee en het ziet erg onoverzichtelijk uit. Een data-analist of programmeur wordt er al helemaal ongelukkig van: het komt voor dat je duizenden datapunten wil analyseren en er bijna niets anders op zit dan de getallen overtypen, met alle mogelijke menselijke foutjes die daarbij komen kijken.

Voorbeeld: de linker afbeelding toont aan de bovenzijde een screenshot van een publicatie van het Ministerie van Defensie en de Politie over Documentfraude. Bij overnemen van de tabel krijg je het onbruikbare te zien, wat het onderste deel van het plaatje vat.

Tim Berners-Lee, een van de uitvinders van het internet, geeft het PDF-bestand daarom ook maar 1 van de 5 sterren in zijn Five Star Open Data-Model vanwege de slechte herbruikbaarheid. Zolang een overheid op de eigen website het originele aanpasbare bestand blijft aanbieden is het niet nodig om PDF-bestanden te publiceren.

Ook het archief of de Webrichtlijnen vereisen geen PDF-bestanden omdat er ook andere bestandsformaten functioneren met voorleessoftware of duurzame toegankelijkheid in het archief. Het Forum Standaardisatie noemt dan ook andere aanbevolen standaarden zoals HTML en CSS voor website opmaak, maar ook XML of CSV voor het publiceren van bestanden. Een rapport kan op een website gepubliceerd worden in een HTML-variant, waarbij de optie wordt gegeven op automatisch een PDF-versie te genereren. De ‘pas toe of leg uit’ standaard sluit dus geenszins uit om op andere wijze te publiceren.

Ook de op het eerste ogenblik positieve kanten van PDF-bestanden zijn eigenlijk nadelen, zoals dat het op het op elk scherm hetzelfde weergegeven wordt. De Britten schrijven hierover terecht dat PDF-bestanden niet responsive zijn en dus niet meeschalen naar je schermgrootte. Steeds meer websitebezoekers gebruiken een smartphone of tablet. Wanneer je via een website naar de informatie wil kijken schalen teksten en afbeeldingen mee naar jouw schermgrootte, met een PDF-bestand gebeurd dat niet. Dit maakt het lezen van een PDF-rapport tot een exercitie van geduld met veel in en uitzoomen op je telefoon.

PDF-bestanden lijken kortom erg op papieren rapporten uit het pre-digitale tijdperk. We slaan een bestand op en exporteren het naar het PDF-formaat en we hebben een bestand dat geschikt is om uit te printen of om offline te gebruiken. Maar dit is niet hoe mensen het internet gebruiken of optimaal gebruik kunnen maken van alle digitale methoden die voorhanden zijn. Via websites zijn veel krachtigere methodes om informatie te structureren, interactieve visualisaties toe te voegen of informatie te doorzoeken.

De Washington Post kopte in 2014 al ‘The solutions to all our problems may be buried in PDFs that nobody reads’. Het downloaden en openen van een PDF-bestand vormt een overbodige drempel. Uit informatie van de Wereldbank bleek namelijk dat de meeste PDF-rapporten van hun website nooit geopend werden. We besteden jaarlijks miljoenen aan rapporten door onderzoeksbureaus, maar de kans dat deze rapporten doorgenomen worden is relatief klein. Het is ook lastig na te gaan welke informatie in een PDF-bestand nuttig is omdat alleen downloadstatistieken van het gehele bestand inzichtelijk zijn en niet van individuele onderdelen. Ook zijn PDF-bestanden lastiger te updaten, wanneer informatie geactualiseerd dient te worden dient het gehele bestand vervangen te worden in plaats van een onderdeel.

Maar wat moeten we dan zonder PDF?

De Britse overheid suggereert in plaats van PDF het gebruik van HTML, ofwel webpagina’s. Webpagina’s schalen mee met de schermgrootte van de gebruiker en bieden de mogelijkheid om informatie in gestructureerde pagina’s met interactieve content te plaatsen. Wanneer er tabellen of grafieken getoond worden dan kunnen deze interactief zijn en kan ook een link aangeboden worden naar de ruwe data in bijvoorbeeld een .csv bestand of een API.

Zo heeft het Planbureau voor de Leefomgeving met behulp van de tool Colophon een rapport die ze voorheen in PDF-vorm zouden publiceren in een interactieve HTML-pagina gepubliceerd. Het is nog steeds mogelijk om het rapport in PDF-vorm te downloaden. Ook uitvoeringsorganisatie KOOP gebruikt op wetten.overheid.nl en officielebekendmakingen.nl diverse bestandsformaten. Regelgeving wordt in gestructureerde HTML vorm aangeboden met verwijzingen naar genoemde artikelen en voorheen geldende regels. De bestanden zijn eveneens te downloaden in gestructureerde XML-vorm, maar ook weer in PDF voor de liefhebber. Steeds meer overheden publiceren gelukkig ook begrotingen en jaarverslagen in een interactieve webversies.

Voor cijfermatige informatie of ruwe data is het geen goed idee om in PDF te publiceren en is ook het gebruik van HTML niet praktisch. Daarbij kan ook weer het Five Star Open Data Model toegepast worden die aanraadt om bestanden dan in bijvoorbeeld .csv formaat te publiceren, een open en gestructureerd bestandsformaat. Met de Wet hergebruik van overheidsinformatie heeft de samenleving ook een recht gekregen om gestructureerde informatie die in PDF-bestanden opgesloten zit in een herbruikbaar bestand op te vragen.

Voor het overzicht hebben we wat veel voorkomende publicaties van de overheid op een rijtje gezet met een suggestie voor publicatie die praktischer is dan PDF:

Type Bestand Hoe aanbieden Waarom
Onderzoeksrapporten HTML Biedt de mogelijkheid voor snel doorzoeken, schaalt mee met het device van de lezer
Cijfers (data) CSV Kunnen ook machines lezen en analyseren
Begrotingen HTML, CSV Hierbij is het van belang dat mensen het op verschillende schermen kunnen lezen (HTML), en de data kunnen analyseren (CSV)
Formulieren HTML Wanneer mensen formulieren goed kunnen lezen en invullen, scheelt dat werk in het uitprinten en weer inscannen van (moeilijk leesbare) tekst.
Officiële besluiten HTML Biedt de mogelijkheid voor snel doorzoeken, schaalt mee met het device van de lezer

Aan de slag

Het overstappen van PDF naar HTML of andere gestructureerde bestanden, vereist een omslag in denken. Overheden denken nu in statische documenten, maar moeten meer in gestructureerde data gaan denken. Daarvoor hoeven ze niet allemaal programmeurs te worden, maar leren om gebruik te maken van handige webtoepassingen of tools, deze lijst van digitale publicatietools of de reguliere functionaliteiten van het CMS. Deze informatie wordt ‘onder water’ in gestructureerde vorm opgeslagen en kan als gestructureerde informatie op een website gepubliceerd worden, zonder gebruik te maken van PDF bestanden.

Staatssecretaris Knops van Binnenlandse Zaken heeft een grote ambitie voor de digitale overheid. Hij zou zich daarom moeten uitspreken voor het toegankelijk maken van overheidsinformatie via andere wegen dan het PDF-bestand en kan daarbij de visie van de Britse overheid als leidraad nemen. Het recent opgerichte Leer en Expertisecentrum Datagedreven Werken, onderdeel van het ministerie van Binnenlandse Zaken, en het Forum Standaardisatie kunnen hierbij ondersteuning en voorlichting bieden. Overheden dienen ook zelf actie te ondernemen en de webredacties, IT- en communicatie afdelingen staan aan de lat om de organisatie van bruikbare tools en informatie te voorzien om bij te dragen aan deze cultuuromslag.

Kortom: overheid, stap af van PDFs en wordt gebruiksvriendelijker. Dit doe je niet alleen voor de mensen die jullie informatie eenvoudig willen vinden, interactief willen ervaren en gebruiken op verschillende schermen, maar ook voor de machines die we moeten gaan gebruiken bij het aanpakken van maatschappelijke uitdagingen.