Wie deze dagen de vinger aan de technische pols heeft, merkt dat Apache Hadoop, het geesteskind van Doug Cutting, the next big thing is voor het verwerken, filteren en ordenen van gigantische hoeveelheden data. Yahoo organiseert een Hadoop Summit met duizend aanwezigen. Cloudera, het Hadoop-powerhouse van Mike Olson (ex-Sleepycat, ex-Oracle) lanceert een resem nieuwe producten. […]


Hoe heeft technologie een impact op je business?
Ontvang elke week het zakelijk IT-nieuws rechtstreeks in je inbox!



Wie deze dagen de vinger aan de technische pols heeft, merkt dat Apache Hadoop, het geesteskind van Doug Cutting, the next big thing is voor het verwerken, filteren en ordenen van gigantische hoeveelheden data.

Yahoo organiseert een Hadoop Summit met duizend aanwezigen. Cloudera, het Hadoop-powerhouse van Mike Olson (ex-Sleepycat, ex-Oracle) lanceert een resem nieuwe producten. Aan de overzijde van de grote plas zijn ze er al lang uit: big data is the next big thing.
 

Hier wordt deze nieuwe technologie soms te snel afgedaan met het erg Vlaamse "oei, maar wij hebben dat niet nodig hoor", om vervolgens weer verder te gaan met de orde van de dag. Wat verder knutselen aan indexen, denormalisatie en replicatieparameters van de Oracle-database. Met het klassieke beeld van de baardige DBA in gedachten, waarvan je als applicatieontwikkelaar alleen maar "nee!" als antwoord kan krijgen.

Data als kosten
Ik trek een schertsend beeld op, maar toch wil ik even dieper duiken naar de grond van waarheid die onder dit beeld schuilt: data worden nog steeds als kosten aangezien, eerder dan als een opportuniteit.

We ervaren data als kosten omdat we vooraf moeten of willen nadenken over het databaseschema, want dat is achteraf moeilijk aan te passen. We denken over replicatie voor het spreiden van load of het realiseren van een fail-overscenario, over ETL-tools als bruggetjes tussen de OLTP- en de OLAP-context. Alles moet geback-upt worden, hardware, fiberchannel: een hoop resources en inspanningen die in het algemeen als duur, als kosten ervaren worden, vaak ook omwille van juridische vereisten (recordsmanagement, dataretentie).

En dan zijn er de datapowerhouses van deze wereld: Google, Amazon, Facebook en Yahoo. Ja, hun productcatalogi en searchindexes zijn gigantisch, maar daarnaast hebben ze immense datawarehouses vol met gebruiksgegevens: wie klikt van waar naar waar, wie doet welke searches, wie koopt welke boeken: meta-informatie, informatie over hun informatie, en zonder overdrijven hun eigenlijke potje goud in het hart van hun bedrijvigheden. Want het is met die data dat ze hun profielen rijker maken, om uiteindelijk beter gerichte advertenties te tonen, betere suggesties te doen, et cetera.

Data als opportuniteit
Zij ervaren data als een opportuniteit, als iets wat koste wat kost opgeslagen moet worden, ook al is het nut ervan niet onmiddellijk duidelijk. Is er nog geen schema voor, dan worden de data vaak in een ruw formaat weggeschreven (zoals logfiles) dat achteraf nog verwerking behoeft (waar Hadoop via MapReduce weer de nodige tooling rond aanbiedt).

Data is een opportuniteit. Nu moeten we ervoor zorgen dat we de juiste tools gebruiken om van die opportuniteit gebruik te kunnen maken. Voor onze nieuwe contentrepository kozen wij alvast voor een NoSQL/HBase back-end: een principebeslissing waarvan we binnenkort zeker de vruchten kunnen plukken.

Gebruiksdata zijn geen kosten meer, als deze tenminste niet meer in een relationeel keurslijf gedwongen worden. Denk daar deze zomer maar even over na.