6 augustus 2014 15:40

Q&A: Gegevensverwerking

In deze Q&A gaan we dieper in op gegevensverwerking. Hoe worden gegevens opgeslagen en geanalyseerd? En wat is de impact van big data?

1. Hoe worden gegevens opgeslagen?

Bedrijven slaan verschillende types gegevens of – met de Engelse term – data op. Over klanten en leveranciers bijvoorbeeld, of over inkomende en uitgaande facturen en financiële verrichtingen. Een overheidsinstelling bewaart dan weer gegevens over dossiers en aanvragers.

Voor elke soort gegevens wordt een tabel gebouwd: een tabel KLANT, een tabel LEVERANCIER, een tabel INKOMENDE FACTUREN enzovoort. De rijen van de tabel KLANT bevatten telkens de gegevens van één klant. Die gegevens worden gerangschikt in kolommen: de kolom NAAM, de kolom STRAAT, de kolom GEMEENTE, de kolom BTW-NUMMER enzovoort. Een groep tabellen die bij elkaar horen, noemen we een databank. Die wordt gebouwd door een informaticus. Hij of zij gebruikt daarvoor een "data base management system" (DBMS).

2. Hoe worden gegevens ingegeven en bijgewerkt?

Eindgebruikers werken met een softwaretoepassing. Bij de ingave worden de gegevens door de toepassing gecontroleerd. Soms wordt er ook validatie voorzien op het niveau van de databank.

Informatici hebben rechtstreeks toegang tot de databank. Zij kunnen gegevens inbrengen, wijzigen en schrappen zonder de toepassing te gebruiken. Zo omzeilen ze de validatie door de toepassing, maar niet de validatie op het niveau van de databank. Hetzelfde geldt voor de gebruikers die de databank benaderen via Microsoft Access.

De beheerder van de databank (een informaticus) creëert gebruikers en geeft hen toegangsrechten, bijvoorbeeld alleen-lezen of updaten. Er bestaan verschillende types databanken, maar het populairste type is de relationele databank, met SQL als taal voor het opvragen en bijwerken van gegevens.

3. Hoe worden de gegevens in de databank geanalyseerd?

Een bedrijf wil een overzicht van de verkoop per product(groep), per periode, per regio, per verkoopkanaal. Of een overheidsinstelling wil weten hoeveel dossiers er per jaar verwerkt worden. Dergelijke analyse gebeurt via de toepassing, of via het DBMS. Wanneer een organisatie met zo"n analyse begint, merkt men overigens soms dat er een probleem is met de juistheid van de gegevens: een probleem van "data quality".

Sommige organisaties hebben meer dan één databank. Dan kan het nodig zijn om een nieuwe databank te bouwen, en daar de gegevens uit verschillende bronnen in samen te brengen. Gaat het om grote hoeveelheden (miljoenen) gegevens, dan maakt men gebruik van een datawarehouse en van toepassingen voor business intelligence. Het komt voor dat de databanken elkaar tegenspreken. Dan is het tijd voor Master Data Management: gegevens die overeenkomen in verschillende databanken (bijvoorbeeld over dezelfde klant) opzoeken en met elkaar verbinden.

4. Wat zijn (on)gestructureerde gegevens?

Gestructureerde gegevens kunt u opslaan in tabellen en kolommen, bijvoorbeeld woorden en getallen. Ongestructureerde gegevens zijn bijvoorbeeld digitale foto"s van personen, huizen, machines en van schadegevallen; PDF-files met handleidingen, verslagen of prijsoffertes; geografische gegevens en GPS-coördinaten; audio-files; video-opnames van de bewakingscamera"s; of logfiles van websites.

5. Wat is de impact van big data op gegevensverwerking?

"Big data" is de naam voor de grote hoeveelheden gegevens. De analyse van deze gegevens heet "data analyse". De specialist in kwestie is een "data scientist ".

De IT-markt, waaronder de aanbieders van software rond databanken, hebben intussen een antwoord op de trend van Big Data. Want niet alleen slaat u veel grotere hoeveelheden gegevens op, zoals positie-gegevens van mobiel toestellen, u slaat gegevens op van een ander type dan vroeger, zoals foto’s of bewegende beelden. Ook logfiles van websites worden snel groot. Misschien analyseert u ook al deze interne of externe data, zoals wat er over u gezegd wordt op sociale media. Of misschien wil u in real-time de gegevens over het energieverbruik van uw productiemachines analyseren.

Voor gevallen waar grote hoeveelheden informatie moeten teruggebracht worden tot hanteerbare hoeveelheden, ontwikkelden aanbieders zoals Oracle, IBM, SAP en Microsoft aangepaste toepassingen. Een bekende toepassing in de wereld van Big Data is bovendien ook Hadoop, een open-source waarmee applicaties grote hoeveelheden aan (ongestructureerde) data kunnen verwerken.