Legal e Conformidade
O que é um Indicador de Nível de Serviço (SLI)?
O que é um Indicador de Nível de Serviço (SLI)?
Um Indicador de Nível de Serviço (SLI) é uma medida quantitativa da qualidade ou confiabilidade de um serviço. Os SLIs refletem a experiência do usuário, focando em aspectos como sucesso da requisição, latência ou correção da entrega de dados. As categorias comuns de SLI incluem disponibilidade, latência, taxa de transferência, taxa de erro, durabilidade, atualidade e correção. Pense em um SLI como uma medição bruta, como um velocímetro, que informa os SLOs e, subsequentemente, os SLAs.
Como os SLIs se relacionam com os SLOs e SLAs?
Embora relacionados, os conceitos de SLOs, SLIs e SLAs servem a propósitos diferentes e estão em diferentes níveis de hierarquia.
- Hierarquia: Esta hierarquia garante que os esforços de engenharia se alinhem tanto com as expectativas dos clientes quanto com a tolerância geral a riscos de negócios.
- Propósito: Os SLIs em si não são metas; eles fornecem a evidência para determinar se as metas de SLO estão sendo cumpridas.
- Ponte: Os orçamentos de erro fornecem uma ponte prática entre SLOs e a velocidade de lançamento.
|
Conceito |
Definição |
|
SLI |
As medições brutas do desempenho do serviço. |
|
As metas para essas medições (limiares aceitáveis) são definidas para uma janela de tempo específica. |
|
|
SLA |
Os compromissos contratuais com os clientes são frequentemente baseados nessas metas e incluem penalidades. |
Como você escolhe SLIs relevantes?
Aqui estão alguns pontos a ter em mente ao selecionar os SLIs relevantes para você:
- Pense na jornada ou capacidade mais importante do seu usuário ou serviço.
- Escolha aqueles que melhor mostram a perspectiva de sucesso do usuário. Selecione os que têm um impacto muito claro na satisfação do usuário.
- Obtenha feedback dos três departamentos: engenharia, produto e suporte, que provavelmente terão pontos de vista diferentes.
- Determine 2-3 SLIs essenciais para começar; atualize-os periodicamente à medida que seu produto, arquitetura ou expectativas do usuário mudarem.
Como os SLIs definem os limiares de desempenho?
Normalmente, os SLIs definem limites de desempenho. Os parâmetros de suporte são:
- Valores: Devem estar alinhados com a qualidade percebida do serviço prestado.
- Conformidade: Durante um período especificado, essas métricas podem ser usadas para determinar a conformidade do acordo de nível de serviço.
- Referência: Um limite pode ser “p95 de latência de login abaixo de 200 ms,” o que fornece um nível exato de desempenho para avaliar.
- Alertas: Estes limites são a base dos alertas de SLO quando são violados. Uma falha de SLO é registada especificamente nesse momento.
Como os SLIs medem a disponibilidade, latência e erros?
Ao pensar em medir SLIs, tenha em mente o seguinte:
- Disponibilidade: Isto é binário – o serviço está operacional ou não? (e.g., tempo de atividade dividido pelo tempo total).
- Latência: O tempo de resposta é a métrica considerada. Um exemplo pode ser o tempo de resposta p95.
- Erros: A medição da frequência de requisições falhas pode ser feita determinando a razão entre as requisições falhas e o total de requisições.
- Defina claramente os critérios para o que é considerado um evento “bom” ou “válido”.
- Meça da perspectiva do usuário sempre que possível.
Como os SLIs refletem a qualidade dos dados?
SLIs em sistemas de dados são usados para avaliar (se os dados são principalmente recentes, precisos, completos e duradouros). Eles refletem a qualidade geral dos dados. Os SLIs de qualidade de dados estão no centro de um monitoramento eficaz, garantindo que pipelines de dados, conjuntos de dados e outros ativos de dados sejam adequados para análises, relatórios e fluxos de trabalho de IA/ML.
Considere incluir verificações de linhagem e validação para apoiar os SLIs de qualidade de dados e fornecer insights mais detalhados.
Com que frequência os SLIs devem ser medidos?
Para detectar mudanças significativas no desempenho do serviço, os SLIs devem ser concluídos com frequência suficiente (mas também de forma a reduzir o ruído e não perder a sensibilidade). A frequência de medição adequada depende do serviço específico, do orçamento de erro que foi definido e do grau em que a experiência do usuário é afetada.
Intervalos Comuns:
- Coleta contínua ou quase em tempo real
- Janelas agregadas de 1 minuto, 5 minutos ou mais.
- Os intervalos razoáveis são entre cada 10 segundos e vários minutos.
O que é prova social e como ela se aplica ao SaaS?
A prova social é uma tática psicológica popular em que as pessoas consideram o feedback e as impressões dos usuários para tomar diferentes decisões de compra.
As empresas de SaaS usam a prova social para demonstrar que seus produtos oferecem experiências positivas e atendem às necessidades dos usuários.
Construir confiança é fundamental para os negócios de SaaS, pois os clientes buscam soluções de longo prazo em vez de compras únicas.
Quais são as métricas SLI comuns?
Considere observar o seguinte:
- Sinais Dourados: Latência, tráfego/taxa de transferência, erros e saturação são frequentemente usados como SLIs.
- Serviços voltados para o usuário: Geralmente, disponibilidade, latência, taxa de erro e taxa de transferência são suficientes para medir o desempenho.
- Sistemas de Dados: Esses sistemas exigem métricas que meçam a atualidade, exatidão e durabilidade.
- Estratégia: Geralmente, o ideal é escolher um punhado de SLIs importantes para cada serviço para reduzir o ruído e limitar a sobrecarga.
Para pagamentos especificamente, considere os seguintes:
- Taxa de Autorização de Pagamento: A proporção entre autorizações bem-sucedidas e o total de tentativas (Corretude/Sucesso).
- Finalizar compra Tempo de Carregamento: O tempo que leva para a página de checkout hospedada se tornar interativa (Latência).
- Atualidade da Entrega de Webhook: O atraso entre um pagamento bem-sucedido e o servidor do fornecedor receber a notificação (Atualidade/Latência).
Conclusão
Os Indicadores de Nível de Serviço (SLIs) representam indicadores quantitativos chave de qualidade e confiabilidade na perspectiva do usuário. Ao escolher e medir sabiamente SLIs como níveis de disponibilidade, latência e taxa de erro, a equipe pode delinear limiares de desempenho, planejar o suporte e manter a qualidade dos dados.