• SRE : Site Reliability Engineering
  • 信頼性こそがあらゆるプロダクトの基本的な機能として位置づけ、SREはシステムのスケーラビリティ、信頼性、効率性を向上させるために、その設計と運用の改善方法を見つけることに集中し、 システムが「十分な信頼性を持った」ら、機能の追加や新プロダクトの構築のために力を注ぐ

導入

Toil

  • GoogleのSREでは「エンジニアリングプロジェクトに工数を割くために、Toilを全体の稼働時間の50%未満に抑える」というのを目標として掲げている

Toilの定義

  • 手作業(Manual)
    • スクリプトの手動実行も含む
  • 繰り返し作業(Repetitive)
  • 自動化可能(Automatable)
  • 戦術的(Tactical)
    • 割り込みで作業が発生する
    • On-call対応とかも
  • 永続的な価値なし(No enduring value)
  • サービスの成長に比例して増加する (O(n) with service growth)

SLO・SLI

SLI

エラーバジェット

  • サービスの信頼性がどの程度損なわれても許容できるかを示す指標
  • 例えば、サービスレベル目標(SLO)が「99.99%」のリクエスト応答率を維持することである場合、エラーバジェットは、エラー応答率を「0.01%」以下に抑えることになります。

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-03-24 (金) 18:42:35 (390d)