Deeplearningsysteem van Google DeepMind verslaat go-wereldkampion

Niels Zomer

9 jaren geleden

Het door Google ontwikkelde deeplearningsysteem AlphaGo heeft de eerste vijf wedstrijden gewonnen tegen de Zuid-Koreaanse wereldkampioen Lee Sedol. De beste go-speler ter wereld moest zijn meerdere erkennen in AlphaGo na een wedstrijd van drieënhalf uur. Het is de eerste keer dat een deeplearningsysteem erin slaagt om een wereldkampion in go te verslaan. Go is een bordspel dat veel complexer is dan schaken.

Google Deepmind’s AlphaGo

De westrijd met de wereldkampioen werd aangekondigd als een grote uitdaging voor de computer van Google vanwege de enorme complexiteit van het bordspel, en kan volgens velen worden vergeleken met de overwinning van IBM’s Deep Blue computer tegen Garry Kasparov in 1997. Tijdens de westrijd informeerde AlphaGo een menselijke assistent via een computerscherm welke zetten er moesten worden gedaan. Het deeplearningsysteem wist de eerste vijf wedstrijden tegen Lee te winnen, waarna de speler besloot om de strijd te staken. De winnaar van de wedstrijd kon 1 miljoen dollar aan prijzengeld winnen en Google DeepMind maakte eerder al bekend dit bedrag te doneren aan een goed doel wanneer AlphaGo wint.

Google stelde gebruikers online in staat om de wedstrijd te volgen via YouTube en dat zorgde in de chat voor de nodige komische reacties, zoals “Save the world Lee Sedol” en “Nog 10 minuten voor het einde van de mensheid”. Helemaal als een verassing kwam de overwinning overigens niet, want in oktober vorig jaar versloeg AlphaGo de drievoudig Europees kampioen Fan Hui ook al met 5-0. Destijds speelde de computer erg defensief en maakte Hui zelf de nodige fouten, maar het gevecht was vandaag een stuk agressiever en volgens professioneel go-speler, Michael Redmond, heeft het deeplearningsysteem een hoop bijgeleverd in de afgelopen maanden.

Het bordspel go werd meer dan 2500 jaar geleden bedacht in China en de complexiteit van het bordspel zorgde voor een flinke uitdaging voor wetenschappers die zich bezig houden met kunstmatige intelligentie. Go wordt gespeeld op een bord met 19×19 lijnen die samen 361 kruispunten vormen. Het spel begint met een leeg bord; beide spelers hebben de beschikking over een voldoende aantal stenen. De speler die begint, heeft zwart, zijn tegenstander wit. Om de beurt doet elk van de spelers een zet op het aanvankelijk lege bord door een steen op een nog onbezet kruispunt te plaatsen. Een eenmaal gezette steen kan niet meer verplaatst worden, hoewel hij in het verloop van het spel wel door de tegenstander geslagen kan worden. Het bord wordt dus tijdens het spelen steeds voller. Zetten is niet verplicht; passen is toegestaan.

Volgens de Demis Hassabis, CEO en medeoprichter van Google DeepMind, is het spel voor computers moeilijk om goed te spelen omdat intuïtie een belangrijk onderdeel is van go. Deepmind beweert dat het algoritme van AlphaGo meer gebaseerd is op het brein van de mens, terwijl de Deep Blue computer brute kracht gebruikt om alle posities te berekenen. AlphaGo gebruikt zijn “verbeelding” met een techniek die bekend staat als de Monte Carlo analyse, aldus Google Deepmind. De techniek van AlphaGo zou wel superieur zijn aan een eerdere Monte Carlo programma’s, omdat Google gebruik maakt van diepe neurale netwerken om de zoektocht te begeleiden.

[sc:adsense-tekst ]