Sistemas Distribuidos y Paralelos: Fallos

Fallos Sistema Distribuidos

En esta entrada hablare sobre las fallas que puede tener un sistema distribuido y la tolerencia que puedan tener.

Como se menciona un Sistema Distribuido debe de ser confiable o sea que tenga los menores errores posibles, ya que esto es imposible se deben diseñar de forma que escondan las fallas; es decir, ocultarlo a los usuarios.

Otra forma de que sean confiable seria que puedan recuperarse automaticamente de fallos sin afectar el rendimiento del sistema.

Como mencione los errores pueden ser posibles, aunque no deben ser frecuentes, por lo tanto los errores o fallos estan dividos en ciertos puntos.

Tipos de Fallos

Falla de Procesos

En una falla de proceso, la ejecución arroja un resultado incorrecto, los procesos provocan que el sistema se desvíe de las especificaciones y el proceso puede suspender su progreso.

Los ejemplos de errores que causan la falla de los procesos son los interbloqueos, tiempo expirado, violación de protección, error en la entrada provista por el usuario.

Dependiendo del tipo de error que cause que un proceso falle, este proceso puede ser abortado o reiniciado desde un estado anterior.

Falla del Sistema

Una falla de un sistema ocurre cuando el procesador falla en la ejecución. Esto es causado por errores de software y problemas de hardware (como errores de CPU, falla en la memoria principal, falla en el bus, falla de energía, etc.).

En el caso de una falla de sistema, el sistema es detenido y reiniciado en un estado correcto. El estado correcto puede estar en algún estado predefinido o en un estado anterior (punto de revisión) del sistema guardado en un almacenamiento no volátil.

Una falla del sistema puede ser clasificado como sigue:

Falla de amnesia: ocurre cuando se reinicia el sistema en un estado predefinido, y no depende del estado del sistema antes de la falla. No se conoce el estado que tenía el sistema antes de la falla.

Falla de amnesia parcial: ocurre cuando se reinicia el sistema y se conoce parte del estado que presentaba antes de ocurrir la falla. También se predefine un estado inicial para fallas.

Falla de pausa: ocurre cuando el sistema se reinicia al mismo estado en que se encontraba antes de la falla.

Falla de aborto (halting): ocurre cuando un sistema nunca se reinicializa.

Falla en Medio de Almacenamiento Secundario

Se dice que ocurre una falla en medio de almacenamiento cuando los datos almacenados no pueden ser accedidos (cualquiera de sus partes o en su totalidad). La causa de esta falla normalmente es provocada por error de paridad, daño de las cabezas lectoras, partículas de polvo depositadas en el medio.

En caso de una falla en el medio de almacenamiento secundario, sus contenidos se encuentran alterados y deberían ser reconstruidos desde una versión del archivo, que se toma del registro histórico de actividades del archivo.

Para tolerar una falla del medio de almacenamiento secundario, el sistema puede ser configurado con un sistema de discos espejos.

Un sistema de disco espejo generalmente son dos discos físicamente independientes que se comunican con la memoria y/o con el CPU a través de controladores y buses independientes. Esto hace que el almacenamiento de datos en un disco sea la imagen del otro. Así, un sistema puede tolerar fallas de un disco de subsistema.

Falla en los Medios de Comunicación

Una falla de un medio de comunicación, ocurre cuando un sitio no puede comunicarse con otro sitio operacional de la red. Esto es ocasionado por la falla del nodo de conmutación y/o por los enlaces de comunicación del sistema.

La falla de un nodo de conmutación incluye la falla del sistema y la falla de almacenamiento secundario, por otro lado, la falla de enlace incluye una ruptura física y ruido en los canales de comunicación.

Recuperación de Errores

Recordemos que un error es esa parte del estado del sistema que es distinto de los valores esperados y que pueden conducir a la falla de un sistema, la recuperación de una falla es un proceso que involucra la recuperación de estados erróneos a un estado libre de error.

Hay dos enfoques para la recuperación de un estado de error a un estado libre de error.

Si la naturaleza del error y los daños causados por la falla pueden ser completamente calculados, entonces es posible remover esos errores del estado del proceso (o sistema) y habilitar el movimiento hacia adelante del proceso a un estado libre de error. Esta técnica es conocida como recuperación hacia adelante.

Si no es posible prever la naturaleza de las fallas y remover todos los errores en el estado del proceso (o sistema), entonces el estado del proceso puede ser restaurado a un estado previo libre de error. Esta técnica es conocida como recuperación de error hacia atrás.

Note que la recuperación del error hacia atrás es más simple que la recuperación del error hacia adelante, ya que es independiente de la falla y de los errores causados por la falla. Además un sistema puede recuperarse de una falla arbitraria por la restauración a un estado previo. Esto generalmente habilita que la recuperación hacia atrás sea provista como un mecanismo de recuperación general para cualquier tipo de proceso.

Bibliografías

http://html.rincondelvago.com/sistemas-distribuidos.html

http://www.itistmo.edu.mx/Pag%20Informatica/APUNTES_archivos/page0002.htm

Sistemas Distribuidos y Paralelos

jueves, 10 de mayo de 2012

Fallos

1 comentario: