M.C. Srivas, ex-Googlemedewerker, staat versteld van de zoekmachine die hij zelf mee hielp bouwen. Nu verkoopt hij zijn kennis aan de wereld. Srivas staat ervan versteld dat, als je "2005 Accord" intikt, Google snapt dat je op zoek bent naar een gezinssedan. En dat je dan niet alleen links krijgt naar websites met tweedehands Honda […]

Advertentie

M.C. Srivas, ex-Googlemedewerker, staat versteld van de zoekmachine die hij zelf mee hielp bouwen. Nu verkoopt hij zijn kennis aan de wereld.

Srivas staat ervan versteld dat, als je "2005 Accord" intikt, Google snapt dat je op zoek bent naar een gezinssedan. En dat je dan niet alleen links krijgt naar websites met tweedehands Honda Accords, maar ook naar websites met vergelijkbare auto’s in dezelfde prijscategorie. Een Volkswagen Passat of een Toyota Camry.

Hij is onder de indruk van het feit dat Google het verschil weet tussen een zoekopdracht naar een huis en een appartement. En dat het het verschil weet tussen new, New York en New York Times.

Maar Sriva applaudiseert niet voor Googles beroemde zoekalgoritmes. Hij is fan van de infrastructuur die Google bouwde om die algoritmes te ondersteunen – softwareplatformen zoals het Google File System (GFS) en Google MapReduce die data opslaan en analyseren door ze te spreiden over een leger doodgewone servers.

De algoritmes zijn ook belangrijk, maar het is MapReduce dat alle pagina’s van het web opslaat en er een doorzoekbare index van maakt. “De dingen die we deden bij Google zijn ongelooflijk”, zegt Srivas. “Ik was enorm onder de indruk van hoe doeltreffend data werden gebruikt.”

Google voor het kleinere bedrijf
Srivas werkte bijna twee jaar bij de zoekgigant als leider van een van de zoekinfrastructuurteams. In de zomer van 2009 verliet hij het bedrijf om er zelf een op te richten: MapR. Deze organisatie gebruikt de ideeën achter Googles geheime infrastructuur en brengt ze naar het gemiddelde bedrijf.

Zoals zovele bedrijven verkopen Srivas en zijn medewerkers een product dat gebaseerd is op Hadoop, een openbron-reïncarnatie van Googles GFS- en MapReduce-platformen. Maar in tegenstelling tot de concurrentie biedt MapR iets aan wat compleet anders is dan Hadoop. Het bedrijf spendeerde twee jaar aan het herschrijven van Hadoop en elimineerde volgens Srivas de grootste gebreken van het platform.

“Drie jaar geleden gaf ik een toespraak over alle problemen met Hadoop, en drie jaar later bestaan ze nog steeds [in de openbronversie]”, vertelt Srivas. “Op een bepaald punt moet je gewoon toegeven dat iets niet gemaakt kan worden, en dat je het opnieuw moet schrijven. Dat hebben wij gedaan.”

Google is geen eigenaar of beheerder van Hadoop: Yahoo en Facebook gebruiken Googles onderzoeksrapporten die de back-end-infrastructuur bespreken. Yahoo en Facebook gebruiken Hadoop om enorme hoeveelheden data te verwerken op duizenden gewone servers, en de meeste bedrijven die de technologie gebruiken zullen die draaien op veel kleinere clusters.

Maar Srivas wijst erop dat de openbronversie van Hadoop nog steeds geplaagd wordt door een fout die single point of failure heet. Wanneer één bepaalde server uitvalt, kan hij het hele platform neerhalen. Dat is iets waar grote bedrijven als Yahoo en Facebook mee om kunnen gaan, maar het gemiddelde bedrijf kan dat misschien niet.

“De reden waarom Yahoo en Facebook de technologie kunnen draaien is dat zij vijftig, zestig tot zelfs zeventig ingenieurs in dienst hebben die er constant mee bezig zijn”, zegt hij. “Andere bedrijven hebben dat niet.”

Hadoop van de toekomst
Toch zijn er andere punten waarop het Hadoopplatform kan verbeteren, en MapR wil deze ook aanpakken. Voor het grootste deel is Hadoop een batchsysteem: je geeft het een taak, het werkt een tijdje en geeft je een resultaat terug. Het is niet ontworpen om je meteen resultaten te geven.

Met zijn zoekmachine heeft Google MapReduce achter zich gelaten; het gebruikt nu Caffeine, een platform dat zijn zoekindex meteen kan updaten.

“Hadoop is compleet anders dan wat Google intern gebruikt”, zegt Srivas nog. Naast GFS en MapReduce gebruikt de zoekgigant nog een softwarelaag die Borg heet. Die laag zorgt voor het serverclusterbeheer binnen in Googles datacenters. Google heeft echter nog niets gepubliceerd rond Borg, en net zoals alle ex-Googlemedewerkers kan en mag Srivas niets zeggen.

De grotere boodschap is echter dat je Hadoop niet mag verwarren met de infrastructuur die Google, Yahoo en Facebook intern gebruiken. “Ik ben er zeker van dat de bedrijven de echte technologie achter de hand houden, als een soort geheim ingrediënt”, besluit Srivas.

Dat kan, maar Google, Yahoo en Facebook representeren niet het gemiddelde bedrijf. Als Hadoop ergens wil slagen, dan moet het evolueren. En bij MapR heeft het dat al gedaan.