
Justin Garrison: lessen van het bouwen en lanceren van Disney+
Op Edgecase 2025 vertelde Justin Garrison een verhaal dat het hele publiek boeide. Nu Head of Product bij Sidero Labs, maar destijds was Justin een van de mensen die een volledig nieuw streamingplatform voor Disney bouwde. Zijn manier van vertellen liet zien dat hij had geleerd van het beste storytelling-bedrijf ter wereld.
Justin verontschuldigde zich meteen aan het begin van zijn talk omdat het niet gaat over edge computing of zelfs over zijn huidige werkgever, Sidero Labs. In lijn met het thema van het event, sprak hij de hoop uit dat zijn verhaal de aanwezigen aanmoedigt om de geleerde lessen toe te passen in hun eigen tijdlijnen.

Het begint met iemand die in je gelooft
"Once upon a time", zo begint dit Disney-verhaal. In december 2018 was het Justins eerste werkdag. Hij had iets mee bij Disney: een manager die in hem geloofde. Het management wist dat hij het kon. En dat hadden ze ook nodig, want Disney+ moet stabiel zijn. Het mag niet uitvallen..
Hoewel hij een boek over de cloud had geschreven, had Justin zelf nog nooit productie-dingen gedaan in een cloudomgeving: "En op de een of andere manier heb ik tijdens het sollicitatieproces mensen overtuigd om mij hun cloudinfrastructuur te laten beheren in een grootschalige omgeving. Mijn manager was waarschijnlijk de beste manager die ik ooit heb gehad, niet vanwege iets specifieks dat het management deed, maar omdat ze in mij geloofden. Want elke keer dat ik vragen stelde, geloofden ze dat ik met het juiste antwoord zou komen, en ze wisten dat ik iets kon wat ik niet dacht dat ik kon. Dus ging ik naar hen voor hulp."
11 maanden om Disney+ te bouwen
Justin was een van de vier mensen in het team. Twee mensen hadden jarenlang ervaring met het bouwen van streaming-infrastructuur. Maar deze twee collega's vertelden Justin dat ze over twee weken weg zouden zijn, dus hij had veel kennis op te nemen: "Het was de eerste keer en tot nu toe de enige keer in mijn carrière dat ik me een complete bedrieger voelde. Ik hoorde hier niet. Dit was niet iets waarvan ik wist hoe ik het moest doen."
"Op dat moment verstijfde ik. Ik dacht gewoon: ik weet niet waar ik nu moet beginnen. Ik sprak met mijn manager, en hij vertelde me om gewoon aan de rest van het team te vragen wat zij denken dat kapot gaat. Want het blijkt dat veel mensen die de systemen de hele dag, elke dag draaien, meestal wel weten wat kapot gaat. Ik vond dat een geweldig idee. Ik was verantwoordelijk voor infrastructuur en observability. En we hadden een team dat CI/CD deed, Jenkins. En we hadden een team dat een deployment-API deed. Prima. Ik ga gewoon iedereen interviewen en vragen: wat denk je dat kapot gaat? En negen van de tien mensen vertelden me dat Elasticsearch kapot zou gaan. Als je ooit Elasticsearch hebt gedraaid, ga je er waarschijnlijk ook vanuit dat het kapot gaat. Dus nu wist ik waar ik moest beginnen. Uiteindelijk kozen we Datadog om Elasticsearch te helpen schalen."
Iemand anders zei dat cluster-onderhoud kapot zou gaan. Het deployen en upgraden van clusters werd gedaan vanuit een enkel Ruby-script en roteerde gewoon een auto-scaling group uit. Dus hoe los je het cluster-onderhoudsprobleem op? Justin en zijn collega hadden allebei Kubernetes-ervaring en Disney+ was gebouwd op ECS. Cloud formation beheren was de toekomst, dus ze zeiden: wat als we een cluster-API voor ECS bouwen?
Dat deden ze, maar het ging kapot, en niemand wist waarom. Workloads, timestamps, logs, snapshots: Justin analyseerde ze allemaal. De oplossing moest er binnen twee maanden zijn. In dit geval was het het verwijderen van de stap van inloggen in SysOps uit het proces. Weer een les geleerd.
Schalen en meer schalen
Toen Disney+ zijn hosting wilde opschalen, vertelde Amazon dat ze geen fysieke servers meer beschikbaar hadden, zelfs geen virtuele servers. Dit was een week voordat alles klaar moest zijn, de publieke lancering van de streamingdienst. Dus besloten ze de clusters een voor een uit te rollen om te kijken of het niet kapot ging. Dat werkte!
Het interne Slack-kanaal had een lijst van wie waarvoor verantwoordelijk was tijdens de lancering. Klinkt simpel, maar het werkte.
Justin kon de abonnementen binnen zien komen. Vlak voordat hij ging slapen, maakte hij een IFTTT aan voor een Disney+ hashtag op Twitter om hem te waarschuwen. Dat explodeerde tijdens de nacht. Met 10 miljoen aanmeldingen op een dag was het de snelst groeiende betaalde dienst ter wereld. Maar troubleshooting was nog steeds dagelijks werk. Zo kregen bijvoorbeeld maar drie VM's al dit verkeer, wat direct schaalproblemen veroorzaakte, en oplossingen werden zo snel mogelijk geïmplementeerd.

De prijs om dingen te fixen
Een belangrijke les die Justin leerde: je kunt het management elk bedrag noemen. Ze betalen het toch. Dus geef altijd ruime schattingen voor wat je nodig hebt. Want als je tijdens het proces terugkomt met de mededeling dat je meer budget nodig hebt, worden ze boos. Dit is het beste advies dat Justin ooit van een manager kreeg, zegt hij.
Over prijs-kwaliteitverhouding gesproken: de miljoenen die Disney besteedde aan het bouwen van Disney+ waren goed besteed. Het vertrouwen dat de dienst niet uit zou vallen leidde tot een stijging van 60 miljard dollar in beurswaarde voor Disney in de allereerste weken na de lancering.
De conclusie van Justins talk: vertrouwen in jezelf krijg je pas door het te doen. De manager die in hem geloofde, zette alles in gang en dat leidde tot deze ROI. Justin is daar nog steeds dankbaar voor.