法律与合规
什么是服务水平指标 (SLI)?
什么是服务水平指标 (SLI)?
服务水平指标 (SLI) 是衡量服务质量或可靠性的定量指标。SLI反映用户体验,侧重于请求成功率、延迟或数据传输正确性等方面。常见的SLI类别包括可用性、延迟、吞吐量、错误率、持久性、数据新鲜度以及正确性。可以将SLI视为一个原始的度量,就像速度计一样,它为SLO提供信息,并进而为SLA提供依据。
SLI 与 SLO 和 SLA 有何关联?
尽管相关,SLO、SLI 和 SLA 的概念服务于不同的目的,并且处于不同的层级。
- 层级:这种层级结构确保工程工作与客户期望和整体业务风险承受能力保持一致。
- 目的:SLI 本身不是目标;它们提供证据来确定 SLO 目标是否已达成。
- 桥梁:错误预算为 SLO 和发布速度之间提供了实用的桥梁。
|
概念 |
定义 |
|
SLI |
服务性能的原始测量数据。 |
|
这些测量的目标(可接受的阈值)适用于特定的时间段。 |
|
|
SLA |
对客户的合同承诺通常基于这些目标,并包含罚款。 |
如何选择相关的SLI?
在选择与您相关的SLI时,请记住以下几点:
- 思考您的用户或服务最重要的旅程或功能。
- 选择最能体现用户视角下成功的指标,以及对用户满意度有非常明确影响的指标。
- 从工程、产品和支持这三个部门收集意见,它们可能持有不同的观点。
- 首先确定2-3个必要的SLI;随着你的产品、架构或用户期望的变化,定期更新它们。
SLIs 如何定义性能阈值?
通常,SLI定义了性能阈值。支持性参数包括:
- 值应与所提供服务的感知质量保持一致。
- 合规性在指定期间内,这些指标可用于计算服务水平协议的合规性。
- 基准: 阈值可以是“p95登录延迟低于200毫秒”,这提供了一个确切的性能水平以供评估。
- 警报: 这些阈值是当它们被违反时SLO警报的依据。SLO未达标会在那个特定时间点被记录下来。
SLIs 如何衡量可用性、延迟和错误?
在考虑衡量SLI时,请记住以下几点:
- 可用性:这是一个非此即彼的情况——服务是否正常运行?(例如,正常运行时间除以总时间)。
- 延迟:响应时间是衡量指标。一个例子可以是 p95 响应时间。
- 错误:衡量失败请求的频率可以通过确定失败请求与总请求的比例来完成。
- 明确定义何为“良好”或“有效”事件的标准。
- 在可能的情况下,从用户角度进行衡量。
SLI 如何反映数据质量?
数据系统中的SLI主要用于评估数据是否新鲜、准确、完整和持久。它们反映了数据的整体质量。数据质量SLI是有效监控的核心,可确保数据管道、数据集和其他数据资产适用于分析、报告和AI/ML工作流程。
考虑纳入血缘和验证检查,以支持数据质量SLI并提供更详细的见解。
SLIs应多久测量一次?
为了检测服务性能的显著变化,SLI应该足够频繁地完成(但也要以减少噪声且不损失灵敏度的方式)。适当的测量频率取决于具体的服务、已定义的错误预算以及用户体验受影响的程度。
常见间隔:
- 持续或近实时收集
- 1分钟、5分钟或更长时间的聚合窗口。
- 合理的间隔时间在10秒到几分钟之间。
什么是社会认同,它如何应用于SaaS?
社会认同是一种流行的心理策略,人们会考虑用户反馈和印象来做出不同的购买决策。
SaaS企业使用社会认同来证明他们的产品能够提供积极的体验并满足用户需求。
建立信任对于SaaS业务至关重要,因为客户寻求的是长期解决方案,而不是一次性购买。
常见的SLI指标有哪些?
考虑观察以下内容:
- 黄金信号:延迟、流量/吞吐量、错误和饱和度常被用作服务等级指标(SLIs)。
- 面向用户的服务:通常,可用性、延迟、错误率和吞吐量足以衡量其性能。
- 数据系统:此类系统需要衡量新鲜度、正确性和持久性的指标。
- 策略:通常最好为每项服务选择少数重要的SLI,以减少干扰并限制额外开销。
具体到支付方面,请考虑以下几点:
- 支付授权率: 成功授权与总尝试次数的比率(正确性/成功率)。
- 购物车结账页面 加载时间: 托管结账页面变得可交互所需的时间(延迟)。
- Webhook 交付新鲜度: 成功支付与供应商服务器收到通知之间的延迟(及时性/延迟)。
结论
服务水平指标 (SLI) 代表着从用户角度衡量的关键质量和可靠性量化指标。通过明智地选择和衡量可用性、延迟和错误率水平等SLI,团队可以划定性能阈值,规划支持,并保持数据质量。