可扩展性和弹性

SaaS 中的故障转移和冗余是什么?

发布时间: 10 月 14, 2024

通过故障转移和冗余确保您的 SaaS 保持在线。了解不同的冗余类型、它们在高可用性中的作用以及它们与灾难恢复的区别。

什么是故障转移和冗余?

故障转移和冗余是用于维护系统功能的方法,即使在发生意外故障时也是如此。冗余是指拥有备用部件或系统作为替代品,而故障转移是指在原始系统发生故障时切换到这些备用系统。

故障转移解决的是较小或局部的、通常范围有限的问题,而灾难恢复 (DR) 则是针对诸如自然灾害、网络威胁或系统崩溃等广泛问题的解决方案。

冗余和故障转移是用于维护或升级的策略,它们可以减少中断并确保服务的连续性。这在商业中至关重要,因为即使是轻微的中断也可能代价高昂。

提示

冗余就像汽车的备用轮胎。它不是驾驶的必需品,但如果轮胎爆胎,它至关重要。

冗余和高可用性之间有什么区别?

冗余是一种专门用于实现高可用性的技术。可以将冗余视为工具箱中的一种工具。它涉及拥有一件或多件设备的备份,以确保在初始设备发生故障时有备用方案。

另一方面,高可用性 (HA) 是确保您的系统可靠运行且中断最少的整体策略。它包括更广泛的策略,不仅是冗余,还包括:

  • 负载均衡: 在多个服务器之间分配负载,以避免任务使某些服务器过载。
  • 定期维护: Anticipating and rectifying issues before failures occur and compromise the workflow in a business organization.
  • Robust Monitoring:  Quickly identifying the failure and executing the necessary failover or other recovery processes.

Furthermore, to ensure high availability in dynamic environments, systems need to incorporate scalability and elasticity to adapt to changing workloads.

Therefore, redundancy is not the sole factor of high availability but an important component.

What are the three types of redundancy?

There are three types of redundancy:

  1. Active-Active: 两个冗余系统同时分担工作负载,以实现最大的资源利用率。
  2. 主-被动: 一个系统完全运行(活动),另一个系统不运行(被动),仅在活动系统发生故障时才投入运行。
  3. N+1 冗余: 您拥有正常运行所需的系统数量 (N),外加一个用于备份目的的系统。

Does your SaaS need failover and redundancy?

决定您是否需要故障转移和冗余取决于几个因素。请考虑以下问题:

  • 您的业务可以承受任何停机时间吗?
  • 您的服务对您的客户有多重要?
  • 服务中断会造成哪些财务影响?

如果停机转化为销售损失或客户信心下降,那么冗余和故障转移可能被证明是具有成本效益的解决方案。

冗余和灾难恢复之间有什么区别?

Redundancy and disaster recovery (DR) both contribute to keeping your systems operational, but they tackle different scenarios:

Redundancy:

    • Focus: Minimizing the chances of experiencing downtimes in the first place.
    • How it works: Uses spare parts or an extra similar system to take over when the main one stops working.
  • 使用场景: For minor problems such as hardware failure or single node/facility level power failure.
  • 可以把它看作: 一个备用轮胎,以防汽车轮胎爆胎。

 

灾难恢复:

  • Focus: Replication of systems and data after a major disruption event.
  • How it works: Entails a comprehensive plan for backing up data, moving operations to a secondary site, and restoring systems online.
  • 使用场景: In cases of major events like natural disasters, cyber threats, or even situations where the entire system crashes.
  • 可以把它看作: 类似于商业保险政策,它用于在发生灾难时促进恢复。

简而言之,冗余用于防止意外停机,而灾难恢复用于在发生严重灾难后恢复损失。

结论

冗余和故障转移是用于提供关键系统可靠性和可用性的一些最重要概念。理解并战略性地实施这些概念,以应对意外中断并有效管理运营。

准备好开始了吗?

We've been where you are. Let's share our 18 years of experience and make your global dreams a reality.
与专家交流
马赛克图像
zh_CN简体中文