- SRE : Site Reliability Engineering
- 信頼性こそがあらゆるプロダクトの基本的な機能として位置づけ、SREはシステムのスケーラビリティ、信頼性、効率性を向上させるために、その設計と運用の改善方法を見つけることに集中し、 システムが「十分な信頼性を持った」ら、機能の追加や新プロダクトの構築のために力を注ぐ
Toil †
- GoogleのSREでは「エンジニアリングプロジェクトに工数を割くために、Toilを全体の稼働時間の50%未満に抑える」というのを目標として掲げている
Toilの定義 †
- 手作業(Manual)
- 繰り返し作業(Repetitive)
- 自動化可能(Automatable)
- 戦術的(Tactical)
- 割り込みで作業が発生する
- On-call対応とかも
- 永続的な価値なし(No enduring value)
- サービスの成長に比例して増加する (O(n) with service growth)
SLO・SLI †
SLI †
エラーバジェット †
- サービスの信頼性がどの程度損なわれても許容できるかを示す指標
- 例えば、サービスレベル目標(SLO)が「99.99%」のリクエスト応答率を維持することである場合、エラーバジェットは、エラー応答率を「0.01%」以下に抑えることになります。