Los fallos de causa común (common cause failures, ccf). Qué son y como se mitigan
Las fallos de causa común representan eventos en los que ocurren múltiples fallos en un periodo corto de tiempo debido a una causa compartida (llamado en muchas ocasiones efecto subyacente). Su estudio e importancia es sobretodo relevante en sistemas redundantes ya que su efecto puedo inhibir completamente las ventajas de este tipo de arquitecturas complejas. Hoy en día, "todos" los estándares sobre seguridad funcional requieren que se tengan en cuenta los fallos de causa común, independientemente del dominio de la industria y el área de aplicación. El objetivo de su estudio es normalmente su eliminación, es decir, será habitual tener como objetivo en aplicaciones de seguridad estudiar y eliminar completamente los fallos de cause común.
Como es sabido, los sistemas redundantes acostumbran a tener un coste elevado ya que el número de elementos tiende a estar doblado. Los fallos de causa común provocan el fallo en estos equipos redundados y, por tanto, la inversión llevada a cabo deja de tener sentido y merecer la pena. Esto hace que las estrategias de diseño redundantes ya sea por augmentar la fiabilidad o la seguridad, no sean efectivas frente a un fallo de causa común. Por tanto, es un fallo que por definición hay que minimizar al máximo o eliminar.
Los fallos causa común se originan normalmente debido a dos razones básicas. (a) Debido a un efecto relevante de tipo instantáneo (por ejemplo, un golpe) sobre el sistema los múltiples fallos ocurren al mismo tiempo o; (b) Debido a un aumento constante en el tiempo de una situación no deseable (por ejemplo, el aumento de las vibraciones en el equipo o el aumento de la temperatura durante un tiempo excesivo) lo que provoca normalmente que poco a poco y de forma inconexa en el tiempo mientras esta situación perdura, los fallos vayan apareciendo.
Cuando se estudian las causas subyacentes de los fallos de causa común se recomienda que se divida en dos elementos de análisis: la causa raíz y el factor de acoplamiento. La causa raíz es aquella que se corregida o simplemente que no sucediera, evitaría la ocurrencia de los múltiples fallos. El factor de acoplamiento es, en cambio, la propiedad o característica que provoca que varios elementos sean susceptibles de fallar por una causa compartida.
Es importante, en este sentido, diferenciar el factor de acoplamiento con el fallo en cascada (o fallo de efecto domino). Aunque los fallos en cascada también deben analizarse y mitigarse cuando tenga sentido, no deben considerar a sus efectos, fallos de causa común. El factor de acoplamiento de los fallos de causa común, como hemos comentado, comparten la misma causa raíz, en cambio, los fallos en cascada se basan en la aparición de nuevas causas raizes que generan nuevos efectos sobre el sistema.
Las causas fundamentales normalmente se pueden identificar con un estudio exhaustivo en la fase de especificación y diseño:
- Error de especificación: falta de especificación o especificación incorrecta. Este punto incluye hacer funcionar el producto, sistema o instalación, en márgenes y situaciones diferentes por los que ha sido diseñado
- Error de implementación: errores de diseño mecánicos, químicos, de electrónica hardware o software
- Errores de instalación del producto o sistema
- Errores de puesta en servicio
Todos estos fallos no identificados en las etapas correspondientes acaban mostrándose en el peor de los casos en la fase de explotación y servicio en forma de errores operativos, exposición condiciones de funcionamiento más allá de los límites de diseño o errores de mantenimiento.
El factor humano acostumbra a ser un denominador común en los fallos de causa común. Es importante prestar atención al error humano cuando se analizan este tipo de fallo tan particular.
En cuanto al factor de acoplamiento típicamente nos encontraremos con las siguientes situaciones:
- Utilización del mismo principio de diseño
- Utilización del mismo hardware o software
- Utilización del mismo personal operativo o de mantenimiento
- Utilización de los mismos procesos
- Utilización del mismo ambiento o ubicación
Estrategias para reducir o eliminar la probabilidad de la aparición de un fallo de causa común
Como hemos comentado, al tener dos puntos básicos que definen un fallo de causa común (causa raíz y factor de acoplamiento), las estrategias para eliminar/reducir los fallos de causa común, irán encaminados efectivamente, en eliminar/reducir la causa raíz y/o el factor de acoplamiento, típicamente:
CAUSAS RAÍZ
- Mejorar el diseño para que la causa raíz no tenga efecto sobre nuestro sistema. Es decir, aplicar "blindajes" frente a efectos externos.
- Augmentar la fiabilidad intrínseca de cada elementos, es decir, utilizar componentes más fiables y robustos.
- Garantizar que el entorno operativo está dentro de las limitaciones de diseño: hablamos de variables ambientales como la temperatura por ejemplo y de stress mecánico como golpes, vibraciones, etc. Es habitual que estas variables trabajen por encima de las condiciones de diseño y, por tanto, generan problemas, debido a las divergencias entre la etapa de definición de requisitos y la etapa de explotación y utilización del equipo.
- En el mantenimiento preventivo diseñar puntos de control y prueba de los fallo de causa común (normalmente de las causas raíz).
FACTORES DE ACOPLAMIENTO
- Introducir el concepto de diversidad de electrónica harware y software.
- Aplicar cambios de tecnología (por ejemplo de una comunicación eléctrica a una comunicación óptica) eliminando completamente el factor de acoplamiento y, asegurando, que no se crea uno nuevo.
- Separar físicamente los sistemas redundantes para que estén
- Evitar acoplamientos en los diseños y arquitecturas electrónicas hardware simplificandolos.
- Análisis típicamente FMECA para detectar vulnerabilidades en los diseños y arquitecturas.
Dentro del estado del arte de la Ingeniería RAMS existen diferentes técnicas para modelar los fallos de causa común y así como software especifico para dichos modelados que disponemos en Leedeo Engineering. El modelo beta-factor por ejemplo está definido en la norma IEC 61508. La norma IEC 61508 también propone un especie de checklist basado en 37 preguntas que su análisis y respuesta ayuda a la reducción de fallos de causa común.
En la CENELEC EN 50126, el análisis de fallo de causa común se considera recomendable (R) para un sistema SIL-1 o SIL-2 y, altamente recomendable (HR, lo cual significa que es obligado de cumplir) para un sistema SIL-3 o SIL-4.
En Leedeo Engineering, somos especialistas en la aplicación de Ingeniería RAMS y SLI de sistemas, cubriendo el ciclo de vida completos desde el punto de vista de RAMS en productos e instalaciones, en la industria ferroviaria, aeroespacial, defensa y naval. No dude en contactar con nosotros >>
¿Te interesan nuestros artículos sobre Ingeniería RAMS y Tecnología?
Inscríbete en nuestra newsletter y te mantendremos informado de la publicación de nuevos artículos.