Fiabilidad, disponibilidad y capacidad de servicio (RAS)

La confiabilidad, disponibilidad y capacidad de servicio (RAS) es un conjunto de atributos relacionados que deben tenerse en cuenta al diseñar, fabricar, comprar o utilizar un producto o componente informático. El término fue utilizado por primera vez por IBM para definir especificaciones para sus mainframe y originalmente se aplicó solo al hardware. Hoy en día, RAS también es relevante para el software y se puede aplicar a redes, programas de aplicación, sistemas operativos (SO), computadoras personales (PC), servidores y supercomputadoras.

El término confiabilidad se refiere a la capacidad de un componente de hardware o software relacionado con la computadora para funcionar de manera consistente de acuerdo con sus especificaciones. En teoría, un producto confiable está totalmente libre de errores técnicos. En la práctica, los proveedores suelen expresar la fiabilidad del producto como porcentaje. El Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) patrocina una organización dedicada a la confiabilidad en la ingeniería conocida como IEEE Reliability Society (IEEE RS).

La disponibilidad es la relación entre el tiempo que un sistema o componente es funcional y el tiempo total que se requiere o se espera que funcione. Esto se puede expresar como una proporción directa (por ejemplo, 9/10 o 0.9) o como un porcentaje (por ejemplo, 90%). También se puede expresar en términos de tiempo de inactividad promedio por semana, mes o año o como tiempo de inactividad total para una semana, mes o año determinados. A veces, la disponibilidad se expresa en términos cualitativos, lo que indica hasta qué punto un sistema puede seguir funcionando cuando un componente importante o un conjunto de componentes deja de funcionar.

La capacidad de servicio es una expresión de la facilidad con la que se puede mantener y reparar un componente, dispositivo o sistema. La detección temprana de problemas potenciales es fundamental a este respecto. Algunos sistemas tienen la capacidad de corregir problemas automáticamente antes de que ocurran problemas serios; los ejemplos incluyen funciones integradas de sistemas operativos como Microsoft Windows XP y software antivirus habilitado para protección automática y programas de detección y eliminación de software espía. Idealmente, las operaciones de mantenimiento y reparación deberían causar el menor tiempo de inactividad o interrupción posible.

Algunos de los elementos clave de RAS son:

  • Sobreingeniería, que consiste en diseñar sistemas según especificaciones mejores que los requisitos mínimos.
  • Duplicación, que es un uso extensivo de sistemas y componentes redundantes.
  • Recuperabilidad, que es el uso de métodos de ingeniería tolerantes a fallas.
  • Actualización automática, que mantiene actualizados los sistemas operativos y las aplicaciones sin la intervención del usuario.
  • Copia de seguridad de datos, que evita la pérdida catastrófica de información crítica.
  • Archivo de datos, que mantiene registros extensos de datos en caso de auditorías u otras necesidades de recuperación.
  • Reemplazo de encendido, que es la capacidad de intercambiar componentes o periféricos en caliente.
  • El uso de máquinas virtuales, lo que minimiza el impacto de fallas del sistema operativo o del software.
  • Uso de supresores de sobretensión, que minimizan el riesgo de daños en los componentes como resultado de anomalías en las líneas eléctricas.
  • La energía continua, que es el uso de una fuente de alimentación ininterrumpida, mantiene los sistemas operativos mientras se cambia de energía comercial a energía de respaldo o auxiliar.
  • Fuentes de energía de respaldo, que incluyen baterías y generadores para mantener los sistemas operativos durante interrupciones prolongadas en la energía comercial.