13 augustus 2018 12:36

Machine learning kan vanaf nu programmeurs oormerken

De technologie kan hackers en letterdieven ontmaskeren, maar stelt de technologiewereld weer voor een aantal privacyvraagstukken.

Programmeurs hebben meestal een eigen, specifieke stijl. Maar om nu duizenden regels code af te speuren op zoek naar kenmerken van een bepaalde programmeur lijkt overdreven. En vanaf nu bovendien onnodig.

Onderzoekers hebben namelijk een machine learningsysteem ontwikkeld dat programmeurs kan herkennen. Of dat nu door ruwe source code is, of door middel van gecombineerde binaries, het maak niet uit: het systeem legt de programmeur meteen bloot.

Het systeem traint een algoritme op het herkennen van een de structuur waarmee een programmeur codeert. Als dataset wordt er gebruik gemaakt van voorbeelden van code die de programmeur in kwestie heeft opgesteld.

In een test die gebruik maakte van gegevens uit Google’s Code Jam, was de AI-aangedreven technologie redelijk accuraat. Toch is er nog ruimte voor verbetering. Met 600 programmeurs en acht data samples voor elke programmeur, kon het systeem de programmeur juist identificeren in 83 procent van de gevallen.

De technologie zou wel eens goed van pas omen voor de inlichtingendiensten. Zo kan die bijvoorbeeld nuttig zijn bij het identificeren van malware-ontwikkelaars.

Maar zo’n ontmaskeringstechnologie kan een zwaard zijn dat aan twee kanten snijdt. Door de technologie wordt het ook moeilijk om nog op anonieme wijze code aan te leveren, zelfs als je daar als programmeur geen slechte intenties mee hebt.

Er moet dus een goede balans gevonden worden tussen het verlangen naar online veiligheid, en die naar privacy. Dat geldt in de codingwereld maar evenzeer voor elk aspect van onze digitaliserende maatschappij.