法務とコンプライアンス
サービスレベル指標(SLI)とは?
サービスレベル指標(SLI)とは?
サービスレベル指標(SLI)は、サービスの品質または信頼性を定量的に測定するものです。SLIは、リクエストの成功、レイテンシ、データ配信の正確性といった側面に焦点を当て、ユーザーエクスペリエンスを反映します。一般的なSLIカテゴリには、可用性、レイテンシ、スループット、エラー率、耐久性、新鮮度、正確性などが含まれます。SLIは、SLO(サービスレベル目標)やその後のSLA(サービスレベル合意)の指針となる、スピードメーターのような生の測定値と考えることができます。
SLIはSLOおよびSLAとどのように関連していますか?
関連しているものの、SLO、SLI、SLAの概念は異なる目的を持ち、階層も異なります。
- 階層:この階層により、エンジニアリングの取り組みが顧客の期待とビジネス全体の許容リスクの両方に合致することが保証されます。
- 目的:SLI自体は目標ではなく、SLOの目標が達成されているかどうかを判断するための証拠を提供します。
- 橋渡し:エラーバジェットは、SLOとリリース速度の間の実用的な橋渡しとなります。
|
概念 |
定義 |
|
SLI |
サービスパフォーマンスの生の測定値。 |
|
これらの測定の目標(許容されるしきい値)は、特定の時間枠にわたるものです。 |
|
|
SLA |
顧客への契約上のコミットメントは、多くの場合これらの目標に基づいており、罰則を含みます。 |
適切なSLIをどのように選択しますか?
あなたにとって関連性の高いSLIを選択する際に留意すべき点がいくつかあります:
- あなたのユーザーまたはサービスの最も重要なジャーニーや機能について考えてください。
- ユーザーの成功の視点を最もよく示すものを選びましょう。ユーザーの満足度に非常に明確な影響を与えるものを選びましょう。
- 異なる視点を持つ可能性が高い、エンジニアリング、プロダクト、サポートの3部門から意見を集めてください。
- まず、2〜3の重要なSLIを決定し、製品、アーキテクチャ、またはユーザーの期待が変化するにつれて定期的に更新してください。
SLIはパフォーマンスの閾値をどのように定義しますか?
通常、SLIはパフォーマンスのしきい値を定義します。補足的なパラメータは以下の通りです。
- 値: 提供されるサービスの認識された品質と一致させる必要があります。
- コンプライアンス: 特定の期間にわたり、これらの指標はサービスレベル契約の遵守状況を算出するために使用できます。
- ベンチマーク:閾値は「p95ログインレイテンシが200ms未満」のようなものであり、これにより評価すべき正確なパフォーマンスレベルが提供されます。
- アラート:これらの閾値は、違反された場合にSLOアラートの基礎となります。SLOミスはその時点で具体的に記録されます。
SLIは可用性、レイテンシ、およびエラーをどのように測定しますか?
SLIを測定する際に、以下の点を考慮してください:
- 可用性:これはバイナリ的なものです。サービスは稼働しているか、していないか?(例:アップタイムを合計時間で割ったもの)。
- レイテンシー:応答時間が考慮される指標です。例として、p95応答時間が挙げられます。
- エラー:失敗したリクエストの頻度は、失敗したリクエストと総リクエストの割合を算出することで測定できます。
- 「良好」または「有効」と見なされるイベントの基準を明確に定義する。
- 可能な限り、ユーザーの視点から測定する。
SLIはデータ品質をどのように反映しますか?
データシステムにおけるSLIは、主にデータが新鮮で、正確で、完全で、長期にわたって利用可能であるかを評価するために使用されます。これらはデータの全体的な品質を反映します。データ品質SLIは、効果的なモニタリングの核となり、データパイプライン、データセット、およびその他のデータ資産が分析、レポート作成、AI/MLワークフローに適していることを保証します。
データ品質SLIをサポートし、より詳細なインサイトを得るために、リネージと検証チェックを含めることをご検討ください。
SLIはどのくらいの頻度で測定されるべきですか?
サービスパフォーマンスの重大な変化を検出するには、SLIを十分な頻度で完了する必要があります(ただし、ノイズが低減され、感度が失われない方法で)。適切な測定頻度は、特定のサービス、定義されたエラーバジェット、およびユーザーエクスペリエンスが影響を受ける度合いによって異なります。
一般的な間隔:
- 継続的またはほぼリアルタイムの収集
- 1分、5分、またはそれ以上の集計ウィンドウ。
- 適切な間隔は10秒から数分の間です。
ソーシャルプルーフとは?SaaSにはどのように活用できるのか?
ソーシャルプルーフとは、様々な購買決定を下す際に、ユーザーのフィードバックや印象を参考にしようとする、多くの人が利用する心理戦術です。
SaaSビジネスでは、自社製品がポジティブな体験を提供し、ユーザーのニーズに応えていることを示すために、ソーシャルプルーフを活用します。
顧客は単発の購入ではなく、長期的なソリューションを求めているため、SaaSビジネスにおいては信頼関係を築くことが重要となります。
一般的なSLIメトリクスは何ですか?
以下を観察することを検討してください:
- ゴールデンシグナル:レイテンシー、トラフィック/スループット、エラー、および飽和度はSLIとして頻繁に利用されます。
- ユーザー向けサービス:通常、可用性、レイテンシー、エラー率、スループットはパフォーマンスを評価するのに十分です。
- データシステム:このようなシステムには、鮮度、正確性、耐久性を測定するメトリクスが必要です。
- 戦略: 一般的に、ノイズを減らし、オーバーヘッドを抑制するためには、各サービスにおいていくつかの重要なSLIを選択するのが最適です。
支払いに関しては特に、以下の点を考慮してください。
- 決済承認率: 全試行回数に対する承認成功の割合(正確性/成功)。
- チェックアウト ロード時間: ホストされているチェックアウトページがインタラクティブになるまでにかかる時間(遅延)。
- Webhook配信の鮮度: 支払いの成功からベンダーのサーバーが通知を受信するまでの遅延(鮮度/レイテンシ)。
結論
サービスレベル指標(SLI)は、ユーザーの視点から見た品質と信頼性の主要な定量的指標を表します。可用性、レイテンシ、エラー率などのSLIを賢く選択し測定することで、チームはパフォーマンスのしきい値を明確にし、サポートを計画し、データ品質を維持することができます。