Opvallende vaststelling: de vloedgolf van definities voor ‘big data’ is stilaan zo hoog als de vloedgolf van big data zelf. De reden ligt voor de hand: de wereld van ‘big data’ heeft vele facetten. Big data moeten worden beheerd, beschermd, opgeslagen, over netwerken worden verstuurd, en – last but not least – ze moeten worden […]


Hoe heeft technologie een impact op je business?
Ontvang elke week het zakelijk IT-nieuws rechtstreeks in je inbox!



Opvallende vaststelling: de vloedgolf van definities voor ‘big data’ is stilaan zo hoog als de vloedgolf van big data zelf. De reden ligt voor de hand: de wereld van ‘big data’ heeft vele facetten. Big data moeten worden beheerd, beschermd, opgeslagen, over netwerken worden verstuurd, en – last but not least – ze moeten worden doorzocht op waardevolle informatie. Vooral in die laatste categorie – het analyseren van ‘big data’ en de informatie die ze bevatten – zien bedrijven een toegevoegde waarde, al dan niet voortgestuwd door de leveranciers die software en diensten aanbieden om in deze berg van gegevens de goudklompjes te zoeken. 

“Informatie is de nieuwe olie”, zo omschrijft Peter Hinssen het in één van de publicaties van de Data Science Series. “Elk van ons heeft niet alleen enorme hoeveelheden informatie te verwerken, we laten ook enorme sporen van informatie achter.” Deze informatie is vaker in ongestructureerde dan in gestructureerde vorm en wordt mede daarom tot het domein van de big data gerekend. Dat heeft te maken met de evolutie van klantenverwachting, meent Peter Hinssen: “Vroeger benaderden bedrijven hun klanten als gemiddelden, als deel van een specifieke categorie, met bijhorende verwachtingen en gedrag. Dat kon je nog in databases gieten. Maar mensen willen niet tot een categorie behoren of als een gemiddelde worden beschouwd, maar als unieke individu’s die met hoogst gepersonaliseerde boodschappen worden aangesproken. Daar kunt u als bedrijf enkel op inspelen als u gebruik maakt van big data.”

Definitie
Of er ooit een alomvattende definitie komt, durven we betwijfelen. IDC beschrijft ‘big data’ als volgt: “Big data technologieën beschrijven een nieuwe generatie van technologieën en architecturen, ontworpen om economische waarde te halen uit hele grote volumes van zeer uiteenlopende soorten gegevens, door deze gegevens aan hoge snelheid te vatten, te ontdekken en/of te analyseren.”

Los van de vage en wollige omschrijving kunnen we hier toch een aantal kenmerken uit distilleren: naast het volume van het bestand zelf of van het aantal bestanden, bepaalt ook de variatie in types bestanden of men al dan niet van big data spreekt. En naast de op zich al ruim voldoende uitdaging van het opslaan en recupereren van gegevens, is er een nog veel grotere uitdaging: informatie distilleren uit de gegevensberg.

IDC geeft zelf al aan waar de sleutel tot het succes zal liggen: de metadata. Metadata zijn de gegevens over een bestand die aan het bestand worden toegevoegd. Zo worden big data zelfs nog groter, merkt John Gantz van IDC op: “Het is niet alleen de informatie in het bestand of het gebruiken van die informatie, maar ook de analyse van alle gegevens die rond de content hangen of zweven.”

 

Digitale schaduw
De idee van gegevens die rond de content hangen, is nauw verbonden met de vaststelling dat onze digitale schaduw groter is dan wijzelf. Die digitale schaduw is alles wat we achterlaten aan informatie zonder zelf die content (bewust) te hebben gecreëerd: foto’s waarin we worden getagd, geldafhalingen, bewakingscamera’s, medische dossiers, enzovoort. Veel van die informatie behoort tot de privésfeer en daar zouden we niet graag mee geconfronteerd worden door een bedrijf dat deze informatie commercieel hoopt te exploiteren. Naast de uitdaging van analyse en ontdekking zal dus ook de grens tussen privacy en exploiteerbaarheid een stevige uitdaging worden.

Het loont wellicht om nu al na te denken over een zakelijke wereld, waarin steeds meer relevante informatie vanuit een brede waaier van niet-gestructureerde gegevens zal komen, en over hoe bedrijven deze informatie zullen capteren en er gebruik van zullen maken. De hype rond big data zal overwaaien, maar de realiteit van steeds meer gegevens van steeds meer verschillende bronnen en formaten blijft. Of, in de woorden van IDC’s analist Gantz: “Er zullen ongetwijfeld nog veel en goedkopere tools op de markt komen om deze gegevens eenvoudiger te verwerken, maar ze zullen alsnog verloren gaan als uw organisatie niet handelt op basis van wat deze gegevens u vertellen. En als u het niet doet, kunt u er donder op zeggen dat uw concurrent het wel doet.”