#author("2023-03-06T00:01:00+00:00","default:admin","admin") #author("2023-03-24T09:42:35+00:00","default:admin","admin") -[[Building Secure & Reliable Systems:https://landing.google.com/sre/books/]] ... Googleが出したSRE本(計3冊)が読める -[[SRE fundamentals: SLIs, SLAs and SLOs:https://cloud.google.com/blog/products/gcp/sre-fundamentals-slis-slas-and-slos]] -[[Introduction to Site Reliability Engineering (SRE):https://docs.microsoft.com/en-us/learn/modules/intro-to-site-reliability-engineering/]] -[[システムの信頼性を上げるための新しい考え方 SRE (Site Reliability Engineering) in Azure, on Azure:https://channel9.msdn.com/Events/de-code/2017/DO05]] -[[SREって何? これまでのシステム運用やDevOpsとは何が違うの?:https://codezine.jp/article/detail/11002]] -[[今更だけど、SREとは何かについてまとめる:https://qiita.com/masao-kunii/items/f96a89a0cdff66c108fd]] -[[SRE実践の手引 ─ 信頼性をどう制御するか? から始める、現実的な指標と目標の設計と計測:https://employment.en-japan.com/engineerhub/entry/2019/12/05/103000]] -[[SREって、具体的にどんな仕事する人たちなの?:https://www.itmedia.co.jp/enterprise/articles/1803/19/news016.html]] -[[SREという“コト売りを支える仕組み”を、どう実現するか:https://www.atmarkit.co.jp/ait/articles/2003/09/news017.html]] -[[特集:「DevSecOps」実現を支えるSRE:https://www.atmarkit.co.jp/ait/series/18223/]] -[[SREの現場に必要なのは“雑食性”--ITインフラの信頼性を高める技術者とは:https://japan.zdnet.com/article/35115398/]] -[[2019年SRE考:https://blog.yuuk.io/entry/2019/thinking-sre]] -[[サービスインフラを支えるSREチームの開発。ZOZO Technologies Meetup#11を開催しました!:https://techcorp.zozo.com/entry/20190725_Meetup]] -[[NoOpsを実現するSREの存在意義と役割 / class SRE implements NoOps:https://speakerdeck.com/katsuhisa91/class-sre-implements-noops]] -SRE : Site Reliability Engineering -信頼性こそがあらゆるプロダクトの基本的な機能として位置づけ、SREはシステムのスケーラビリティ、信頼性、効率性を向上させるために、その設計と運用の改善方法を見つけることに集中し、 システムが「十分な信頼性を持った」ら、機能の追加や新プロダクトの構築のために力を注ぐ *導入 [#l613b7fa] -[[SREチームの作り方と5つの導入ステップを理解する:https://sreake.com/blog/sre-team-building-5step/]] *Toil [#wfa28c7c] -[[Eliminating Toil をやっていく話:https://qiita.com/tshohe/items/d791926621aa709141a2]] -[[Toilの地獄から抜け出す術を知りたい:https://chroju.github.io/blog/2017/06/12/very_exhausted_because_of_toil/]] -GoogleのSREでは「エンジニアリングプロジェクトに工数を割くために、Toilを全体の稼働時間の50%未満に抑える」というのを目標として掲げている **Toilの定義 [#f715a46e] -手作業(Manual) --スクリプトの手動実行も含む -繰り返し作業(Repetitive) -自動化可能(Automatable) -戦術的(Tactical) --割り込みで作業が発生する --On-call対応とかも -永続的な価値なし(No enduring value) -サービスの成長に比例して増加する (O(n) with service growth) *SLO・SLI [#p0fc1cde] -[[The Art of SLOs:https://sre.google/resources/practices-and-processes/art-of-slos/]] -[[「サービスレベルってなんぞや SLA/SLO/SLI の違い」SLO駆動なSRE活動に向けた取り組み パート1:https://zenn.dev/magicmoment/articles/slo-driven-part-1]] -[[その SLO は現実的ですか?SRE 的なリスク分析手法:https://cloud.google.com/blog/ja/products/devops-sre/how-sres-analyze-risks-to-evaluate-slos]] -[[SREに基づいた保守の進め方:https://go-to-k.hatenablog.com/entry/sre-maintenance]] -[[SLI/SLO策定に向けて:https://blog.engineer.adways.net/entry/advent_calendar_2020/16]] -[[たった2ヶ月半でSLOを導入して事業判断に影響を与えた話:https://blog.engineer.adways.net/entry/2022/01/14/160000]] -[[SLO Workshop で学ぶ SLO の実践的な理解の促進:https://blog.recruit.co.jp/data/articles/slo_workshop/]] -[[3-shake SRE Tech Talk #3 SLO違反への対処を継続的に改善する試み:https://www.docswell.com/s/integrated1453/ZE1VNK-improvement-of-slo-violations]] -[[NRUG#2 SLOモニタリングをNew Relicに移行した話:https://www.docswell.com/s/integrated1453/ZJW63K-slo-monitoring-migrate-to-newrelic#p1]] -[[「Istio を導入してマイクロサービス間のメトリクスを取得する」SLO駆動なSRE活動に向けた取り組み パート2:https://zenn.dev/magicmoment/articles/slo-driven-part-2]] **SLI [#sc82f4ad] -[[【用語解説】SLI(サービスレベル指標)とは?:https://sreake.com/glossary/sli/]] *エラーバジェット [#f0f8a569] -[[SREについて学ぶ - エラーバジェット編:https://qiita.com/katsulang/items/feb3070666607b7c924c]] -[[エラーバジェットとは:https://note.com/campfire_dev/n/nd1b73ecbc17c]] -[[円滑なエラーバジェット運用に向けた取り組み:https://engineering.visional.inc/blog/302/error-budget/]] -[[エラーバジェットポリシー仮運用してみた:https://blog.engineer.adways.net/entry/2022/11/25/150000]] -サービスの信頼性がどの程度損なわれても許容できるかを示す指標 -例えば、サービスレベル目標(SLO)が「99.99%」のリクエスト応答率を維持することである場合、エラーバジェットは、エラー応答率を「0.01%」以下に抑えることになります。