#author("2018-12-29T09:24:09+00:00","default:admin","admin") *システム監視の種類 [#tc2666ef] **メトリクス監視 [#q1aca30e] -メトリクスの収集 -メトリクスの可視化 -メトリクス異常の検知 **APM(Application Performance Monitor) [#webf3e16] **ログ監視 [#o8f52392] -アクセスログの監視 -アプリケーションログの監視 **外形監視 [#i0c9c26e] -ネットワーク的に社内のシステムから完全に切り離された外部のシステムから定期的に接続して、サービスの健全性を監視 **オンコールシステム [#rfbd1d51] *監視SaaS [#id706f35] **Datadog [#a20d1c81] -メトリクス監視に必要な「収集」「可視化」「通知」を1つのプロダクトで一気通貫にサポート -豊富なグラフ種類とカスタマイズ性により、自分好みのDashboardを簡単に作れる -Slackなどに対して、グラフ付きでメッセージやアラートを通知する機能がある -各種クラウドサービスに対応 --AWS --Google Cloud --Azure --Kubernetes **Pagerduty [#eea0bc96] -[[PagerDutyを使ってみた:http://blog.serverworks.co.jp/tech/2015/10/13/start-pagerduty/]] -[[統合インシデント管理サービスPagerDuty 記事一覧:https://thinkit.co.jp/series/7350]] --[[第1回:システム運用エンジニアを幸せにするソリューションPagerDutyとは:https://thinkit.co.jp/article/13314]] --[[第2回:PagerDutyのエスカレーションポリシーとサービス:https://thinkit.co.jp/article/13420]] --[[第3回:モニタリングシステム連携とインシデントの抑制:https://thinkit.co.jp/article/13558]] --[[第4回:PagerDutyのアプリ連携(Slack/JIRA/Custom Incident Action):https://thinkit.co.jp/article/13627]] --[[第5回:PagerDutyをもっと使い込む コンテナ活用とAPIの利用例:https://thinkit.co.jp/article/13743]] --[[第6回:PagerDuty Tips(Terraform/オンコール通知/インシデント分析):https://thinkit.co.jp/article/13898]] -エマージェンシーコールの通知に特化したSaaS -サイトのダウンなどの緊急時に、設定に応じて自動的に監視担当者に電話やSMS、Slack、専用のアプリケーションに対するPushなどで連絡を送る -現在、電話やSMSは英語 -エスカレーションフローの設定が可能 --障害発生時の一次受け対応担当者をカレンダーベースで割り当て --一次受付担当者が応答できなかった際に自動的に二次受付担当者以降にエスカレーション **Mackerel [#gdef73f0] *監視ツール [#ec803b5c] **[[Prometheus:https://prometheus.io]] [#sc9c5956] -[[10分で理解する Prometheus:https://qiita.com/Chanmoro/items/ac0eb1bf93760566b338]] -[[次世代監視の大本命! Prometheus を実運用してみた:https://qiita.com/sugitak/items/ff8f5ad845283c5915d2]] -[[インフラ・サービス監視ツールの新顔「Prometheus」入門:https://knowledge.sakura.ad.jp/11633/]]