VIE, 29 / ABR / 2011

Amazon atribuyó la culpa de la caída de su servicio a un error humano

A una semana de provocar un desastre en la red, Amazon se disculpó con sus clientes y admitió que el 0,7% de la información no pudo ser recuperada.

Después de una semana de la caída de la red de Amazon que provocó que miles de sitios se quedaran sin servicio, la compañía salió a explicar los motivos y las consecuencias del episodio. Según, Amazon todo empezó el mediodía del 21 de abril en el Elastic Block Store (EBS) donde, por una falla humana, se hizo un cambio incorrecto en la configuración de la red que provocó que se desatara el desastre.

El Elastic Block Store es el almacenamiento que utiliza el servidor EC2 y ofrece almacenamiento escalable a servidores. Este funciona con una tecnología peer-to-peer que mantiene los datos sincronizados en varios nodos, utilizando dos redes, una primaria y otra de respaldo. Cada nodo utiliza la red para crear múltiples copias de los datos a medida que se requiera. Cuando uno de los nodos deja de comunicarse con otro en medio de una operación, éste asume que el segundo falló y busca otro que este disponible para realizar el respaldo de información.

El problema surgió cuando el enrutamiento del tráfico de la red primaria tuvo algunas fallas de funcionamiento ya que un grupo de nodos perdió contacto con sus réplicas. Cuando logró recuperarse la conexión, tantos nodos se habían caído que el espacio disponible para replicarse, se había acabado. Esto generó que los nodos estén continuamente buscando una y otra vez espacio en otros nodos sin éxito y obligó a Amazon a deshabilitar la capacidad de los clientes de crear nuevos volúmenes de datos.

Luego, los técnicos lograron encontrar la manera de detener el problema sin afectar la comunicación entre los nodos. Sin embargo, el 13% de EBS continuaba atascados. Entonces, los ingenieros comenzaron a buscar espacio para que los datos atascados pudieran replicarse. Cuando lograron instalar la nueva capacidad, el desafío era lograr que los nodos se comunicaran nuevamente entre si con total normalidad y rapidez.

Después de dos días, las operaciones funcionaban con normalidad con excepción de un 2,2% que todavía estaba atascado. Finalmente, este porcentaje hubo que recuperarlo de forma manual. Si bien los datos se encontraban respaldados por Amazon S3, el 0,7% no pudo ser recuperado. Aunque parezca un porcentaje insignificante, para algunos sitios significó perder gran parte de la información.

Luego de este desastre, Amazon anunció que realizará cambios en la red y que aumentará la automatización del sistema para evitar que esta clase de errores se repitan en el futuro. Además, se disculparon con los clientes y les otorgaron un crédito de 10 días a modo de resarcimiento, independientemente de si sus servicios se vieron afectados o no.

Fuente: Amazon Web Service

 

Comentarios
¡Comparte esta noticia!
TAGS

6 Comments

  1. Federico dice:

    Esa foto es el RATACENTER de Dattatec, si no me equiboco.

  2. Marcelo dice:

    @marmol Yo no me he referido en terminos “economicos”, solo dije “el Housing es mejor” el tema $$$ es algo externo (y relativo de acuerdo a cuanto trafico tenga). Si tienes un sitio gigantesco se supone que tus beneficios van a ser grandes e invertiras en equipos (no vas a ser tan tacaño de no comprar un servidor y dar laburo a empleados). El tema es que una nube maneja miles de servidores y millones de sitios. si quieres compartir tu espacio con todos ellos, bancatela. 0.7 % entre tantos terabits que se transmiten por minuto de una parte a otra del mundo en esa nube es una perdida inaceptable.

    En terminos tecnicos, el Housing tiene mas virtudes que defectos, ya que usas un servidor, sus procesadores y sus gigas de memoria para vos solo. . y la tecnologia SCSI o SAS casi asegura que el 100% de tus datos escritos no se perdera. y para fallas “ajenas o graves” existen las replicas. No tienes que andar dando excusas ni culpando a tus empleados. ya que se supone que vos los elejiste, por lo tanto una falla sera responsabilidad tuya.

  3. Marcelo Marmol dice:

    Perdon MARCELO, housing es mas seguro? De donde sacaste eso? Cuando lo tenes housing tus tecnicos no comenten errores? Te podes dar el lujo de tener toda la estructura de replicacion? Los tecnicos locales los tenes 24×7 todo el tiempo y son super pagos y especialistas? Bueeeeeee housing se lo puede dar el lujo Facebook o alguna empresa similar que puede invertir millones de dolares para tener un sistema como el de amazon o mejor… y mismo asi ellos tambien se equivocan, cometen errores, se les cae la red y etcs.. 100% seguro no existe.

  4. felix dice:

    diego arregui, no se porque tiras esa mentira
    no todos cometemos el mismo error 2 veces… capas que vos si, pero todos no
    dicen q van a automatizar mas, kisa lo logren i amazon se vuelva lo mejor del milenio

  5. marcelo dice:

    Al final siempre lo mas seguro (y mas caro) es tener un Housing propio (no confundir con hosting)… esta tecnologia en la que miles de sitios confian en una “nube” le falta ajustar

  6. Entonces, si fue un error humano, les va a pasar de nuevo, por que el ser humano se caracteriza por cometer el mismo error dos veces 🙂
    Y le agregaria: Dos veces por lo menos 🙂

Leave a Reply