#author("2023-03-06T00:01:00+00:00","default:admin","admin")
#author("2023-03-24T09:42:35+00:00","default:admin","admin")
-[[Building Secure & Reliable Systems:https://landing.google.com/sre/books/]] ... Googleが出したSRE本(計3冊)が読める
-[[SRE fundamentals: SLIs, SLAs and SLOs:https://cloud.google.com/blog/products/gcp/sre-fundamentals-slis-slas-and-slos]]

-[[Introduction to Site Reliability Engineering (SRE):https://docs.microsoft.com/en-us/learn/modules/intro-to-site-reliability-engineering/]]
-[[システムの信頼性を上げるための新しい考え方 SRE (Site Reliability Engineering) in Azure, on Azure:https://channel9.msdn.com/Events/de-code/2017/DO05]]

-[[SREって何? これまでのシステム運用やDevOpsとは何が違うの?:https://codezine.jp/article/detail/11002]]
-[[今更だけど、SREとは何かについてまとめる:https://qiita.com/masao-kunii/items/f96a89a0cdff66c108fd]]
-[[SRE実践の手引 ─ 信頼性をどう制御するか? から始める、現実的な指標と目標の設計と計測:https://employment.en-japan.com/engineerhub/entry/2019/12/05/103000]]
-[[SREって、具体的にどんな仕事する人たちなの?:https://www.itmedia.co.jp/enterprise/articles/1803/19/news016.html]]
-[[SREという“コト売りを支える仕組み”を、どう実現するか:https://www.atmarkit.co.jp/ait/articles/2003/09/news017.html]]

-[[特集:「DevSecOps」実現を支えるSRE:https://www.atmarkit.co.jp/ait/series/18223/]]
-[[SREの現場に必要なのは“雑食性”--ITインフラの信頼性を高める技術者とは:https://japan.zdnet.com/article/35115398/]]

-[[2019年SRE考:https://blog.yuuk.io/entry/2019/thinking-sre]]
-[[サービスインフラを支えるSREチームの開発。ZOZO Technologies Meetup#11を開催しました!:https://techcorp.zozo.com/entry/20190725_Meetup]]
-[[NoOpsを実現するSREの存在意義と役割 / class SRE implements NoOps:https://speakerdeck.com/katsuhisa91/class-sre-implements-noops]]

-SRE : Site Reliability Engineering
-信頼性こそがあらゆるプロダクトの基本的な機能として位置づけ、SREはシステムのスケーラビリティ、信頼性、効率性を向上させるために、その設計と運用の改善方法を見つけることに集中し、 システムが「十分な信頼性を持った」ら、機能の追加や新プロダクトの構築のために力を注ぐ

*導入 [#l613b7fa]
-[[SREチームの作り方と5つの導入ステップを理解する:https://sreake.com/blog/sre-team-building-5step/]]

*Toil [#wfa28c7c]
-[[Eliminating Toil をやっていく話:https://qiita.com/tshohe/items/d791926621aa709141a2]]
-[[Toilの地獄から抜け出す術を知りたい:https://chroju.github.io/blog/2017/06/12/very_exhausted_because_of_toil/]]

-GoogleのSREでは「エンジニアリングプロジェクトに工数を割くために、Toilを全体の稼働時間の50%未満に抑える」というのを目標として掲げている

**Toilの定義 [#f715a46e]
-手作業(Manual)
--スクリプトの手動実行も含む
-繰り返し作業(Repetitive)
-自動化可能(Automatable)
-戦術的(Tactical)
--割り込みで作業が発生する
--On-call対応とかも
-永続的な価値なし(No enduring value)
-サービスの成長に比例して増加する (O(n) with service growth)

*SLO・SLI [#p0fc1cde]
-[[The Art of SLOs:https://sre.google/resources/practices-and-processes/art-of-slos/]]

-[[「サービスレベルってなんぞや SLA/SLO/SLI の違い」SLO駆動なSRE活動に向けた取り組み パート1:https://zenn.dev/magicmoment/articles/slo-driven-part-1]]
-[[その SLO は現実的ですか?SRE 的なリスク分析手法:https://cloud.google.com/blog/ja/products/devops-sre/how-sres-analyze-risks-to-evaluate-slos]]
-[[SREに基づいた保守の進め方:https://go-to-k.hatenablog.com/entry/sre-maintenance]]
-[[SLI/SLO策定に向けて:https://blog.engineer.adways.net/entry/advent_calendar_2020/16]]
-[[たった2ヶ月半でSLOを導入して事業判断に影響を与えた話:https://blog.engineer.adways.net/entry/2022/01/14/160000]]
-[[SLO Workshop で学ぶ SLO の実践的な理解の促進:https://blog.recruit.co.jp/data/articles/slo_workshop/]]

-[[3-shake SRE Tech Talk #3 SLO違反への対処を継続的に改善する試み:https://www.docswell.com/s/integrated1453/ZE1VNK-improvement-of-slo-violations]]

-[[NRUG#2 SLOモニタリングをNew Relicに移行した話:https://www.docswell.com/s/integrated1453/ZJW63K-slo-monitoring-migrate-to-newrelic#p1]]
-[[「Istio を導入してマイクロサービス間のメトリクスを取得する」SLO駆動なSRE活動に向けた取り組み パート2:https://zenn.dev/magicmoment/articles/slo-driven-part-2]]

**SLI [#sc82f4ad]
-[[【用語解説】SLI(サービスレベル指標)とは?:https://sreake.com/glossary/sli/]]

*エラーバジェット [#f0f8a569]
-[[SREについて学ぶ - エラーバジェット編:https://qiita.com/katsulang/items/feb3070666607b7c924c]]
-[[エラーバジェットとは:https://note.com/campfire_dev/n/nd1b73ecbc17c]]
-[[円滑なエラーバジェット運用に向けた取り組み:https://engineering.visional.inc/blog/302/error-budget/]]

-[[エラーバジェットポリシー仮運用してみた:https://blog.engineer.adways.net/entry/2022/11/25/150000]]

-サービスの信頼性がどの程度損なわれても許容できるかを示す指標
-例えば、サービスレベル目標(SLO)が「99.99%」のリクエスト応答率を維持することである場合、エラーバジェットは、エラー応答率を「0.01%」以下に抑えることになります。

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS