Por qu谷 se cay車 medio Internet esta semana: La explicaci車n oficial
Alguien toc車 donde no deb赤a, en resumen. Fastly presume que descubri車 el error en 1 minuto, pero le llev車 1 hora arreglarlo.
A las 12 del mediod赤a de ayer estallaba el caos: Una ca赤da global y generalizada de millones de p芍ginas web, servicios y plataformas online disparaba el p芍nico. Parec赤a lo que experimentamos hace unos a?os con Wannacry, el malware que hacke車 el mundo entero y tumb車 instituciones, hospitales, bancos, etc. Pero lo sucedido no fue catalogado como un ciberataque, sino como un fallo. Un fallo provocado por una red de servidores.
Error de Fastly
Fastly es un CDN (Content Delivery Network), un proveedor estadounidense de servicios de computaci車n en la nube.?Un CDN o red de entrega de contenido est芍 formada por un grupo de servidores distribuidos geogr芍ficamente que trabajan juntos para ofrecer una entrega r芍pida de contenido de Internet.
Y su papel es evitar que cosas como hoy sucedan, ya que se encargan de replicar las p芍ginas web o algunos servicios de los clientes que contratan sus servicios, haciendo esto en varios servidores en distintos puntos del mundo. Pero como vimos, algo sali車 y el resultado fue una ca赤da hist車rica generalizada de 60 minutos de medio Internet en el mundo -hablamos de millones de p芍ginas web ca赤das.
La explicaci車n oficial de Fastly
Pero, ?por qu谷 sucedi車 esto? ?Qu谷 hicieron en Fastly para liarla verdaderamente parda a nivel global? Pues la compa?赤a ha publicado las causas oficiales, y se resumen en lo esperado: Alguien toc車 donde deb赤a, pero sin querer lo hizo saltar todo.
Seg迆n la explicaci車n oficial, nos remontamos al pasado 12 de mayo, momento en que en Fastly iniciaron ※un despliegue de software que introdujo un error que pod赤a ser activado por una configuraci車n espec赤fica del cliente en circunstancias concretas§.
Saltamos adelante a ayer, 8 de junio: En las primeras horas del d赤a, ※un cliente introdujo un cambio de configuraci車n v芍lido que inclu赤a las circunstancias espec赤ficas que desencadenaban el fallo, lo que hizo que el 85% de nuestra red devolviera errores§. La cronolog赤a de los hechos es la siguiente, con todas las horas en UTC (en hora espa?ola habr赤a que sumarle 2, de tal manera que las 09:47 am UTC ser赤an las 11:47 am en Espa?a):
1 minuto en detectarlo, 1 hora en arreglarlo
Una vez mitigados los efectos inmediatos, ※nos dedicamos a corregir el fallo y a comunicarnos con nuestros clientes. Creamos una soluci車n permanente para el fallo y comenzamos a desplegarla a las 17:25§. Lo curioso seg迆n la cronolog赤a es que el equipo de Fastly detect車 el error en tan s車lo 60 segundos, pero la mayor赤a de los millones de webs afectadas estuvieron con errores o directamente &down* por espacio de unos 60 minutos.??
Fastly llevar芍 a cabo tambi谷n una investigaci車n completa sobre las pr芍cticas que llev車 a cabo durante el incidente, as赤 como para determinar por qu谷 no detect車 en sus procesos de revisi車n el error que ocasion車 la ca赤da global. Tambi谷n evaluar芍 formas de mejorar su tiempo de soluci車n de problemas.??