Big Data Detectives: eDiscovery en de Panama Papers

Network Patch Panel 1 1243035

De Panama Papers, het grootste journalistieke datalek ooit. Samengevat: de krant Süddeutsche Zeitung en het Internationaal Consortium voor Onderzoeksjournalisten ontdekten in documenten van het Panamese advocatenkantoor Mossack Fonseca hoe de rijken der aarde, waaronder prominente politici en beroemdheden, belasting ontduiken en zich verrijken met illegale praktijken. Maar hoe ze dit hebben klaargespeeld en de rol die big data hierin heeft gespeeld, is minder bekend.

eDiscovery

Het proces van elektronische big data-analyse van documenten voor juridisch onderzoek wordt ook wel eDiscovery genoemd. Met Technology Assisted Review software kan data worden gestructureerd en opgeschoond, kan worden gezocht in de data, kan informatie worden geanalyseerd en gerapporteerd, en kan worden samengewerkt tussen onderzoekers. Met name juristen, overheden en opsporingsdiensten maken gebruik van eDiscovery om grote hoeveelheden data te analyseren en het corpus van bewijsmateriaal te vormen. Een eDiscovery-proces wordt conceptueel beschreven door het eDiscovery Reference Model in 9 fasen, zie figuur 1 onder. Hierin wordt ook de samenhang met informatiemanagement benadrukt; om goed voorbereid te zijn op mogelijke verzoeken om data voor juridische processen in de toekomst, moeten organisaties nu al hun informatiehuishouding daarop inrichten.

 

edrm

Figuur 1 Het Electronic Discovery Reference Model, 2014, edrm.net

 

The Panama Papers

De Panama Papers vormen het grootste datalek in de journalistieke geschiedenis en de getallen zijn dan ook indrukwekkend: 2.6 Terabyte aan data, goed voor 11.5 miljoen documenten, waaronder 5 miljoen e-mails, 3 miljoen database records, 3 miljoen Pdf’s en afbeeldingen, en nog zo’n 300.000 tekstbestanden, die teruggaan tot de jaren ‘80. De journalisten die dit verhaal naar buiten brachten gebruikten het eDiscovery-platform van het Australische Nuix om in slechts 6 maanden zoveel mogelijk verbanden aan te tonen. En deze ordegrootte van data is niet eens bijzonder voor eDiscovery.

Het systeem werd geïnstalleerd op een geïsoleerde server. Vervolgens werd middels het Nuix platform de data gededupliceerd, om zo een derde aan dubbeling te verwijderen. Op basis van de (meta-)data werden mensen, gebeurtenissen, tijdstippen, plaatsen en versies geïndexeerd. Tenslotte werden hier patronen uit afgeleid en omgezet in visuele representaties. Zo konden de journalisten in ongekend tempo tot inzichten komen, waar dat met traditionele methoden niet zo volledig of binnen afzienbare tijd mogelijk was. Zoals Carl Barron van Nuix zegt: “There is no place to hide”.

 

Digital We

Veel organisaties zijn al met big data bezig, ook al noemen ze het anders (denk aan termen als business intelligence en analytics), maar de vertaalslag naar succesvolle veranderingen in dienstverlening laat vaak te wensen over, zo schetst ook Michael Schrage van MIT. Het interpreteren van de resultaten van big data-analyses vereist nog steeds menselijke vaardigheid. De vraag naar big data-specialisten is dan ook groot, en het gebrek aan in-house vaardigheden vormt een bottleneck in de adoptie van big data.

In Digital We heeft InnoValor onderzocht hoe big data en fast data goed in te zetten. Welke competenties vereist dit als organisatie en hoe zitten de ecosystemen van datadiensten in elkaar? Meer weten? Zie www.digitalwe.nl

Leave a Reply