#author("2022-10-14T05:36:41+00:00","default:admin","admin") #author("2023-03-06T09:31:41+00:00","default:admin","admin") -[[ZOZOTOWNの監視にモダンなツール(Datadog、PagerDuty、Sentry)を導入した話:https://techblog.zozo.com/entry/zozotown-backend-monitoring]] *オブザーバビリティ [#uf448df7] -[[オブザーバビリティとは何か?まずはその概念を理解しよう:https://licensecounter.jp/devops-hub/blog/splunk1/]] -[[オブザーバビリティ(可観測性)とは?:https://www.splunk.com/ja_jp/data-insider/what-is-observability.html]] -[[オブザーバビリティとは?:https://newrelic.com/jp/topics/what-is-observability]] -[[最新のシステム監視「オブザーバビリティ」とは?メリットとデメリットを解説:https://blogs.manageengine.jp/what-is-observability/]] -[[Sumo Logic、「オブザーバビリティスイート」最新版を発表:https://www.atpress.ne.jp/news/251395]] *システム監視の種類 [#tc2666ef] -[[RUM vs. APM: How They’re Similar and Different:https://sematext.com/blog/rum-vs-apm/]] **メトリクス監視 [#q1aca30e] -メトリクスの収集 -メトリクスの可視化 -メトリクス異常の検知 **APM(Application Performance Monitor) [#webf3e16] **RUM(Real User Monitoring) [#f5e71a1b] **ログ監視 [#o8f52392] -アクセスログの監視 -アプリケーションログの監視 **外形監視 [#i0c9c26e] -ネットワーク的に社内のシステムから完全に切り離された外部のシステムから定期的に接続して、サービスの健全性を監視 **Synthetic Transaction Monitoring [#fbcc182f] -合成監視は、トランザクションのエミュレーションまたはスクリプト化された記録を使用して行われる監視手法 -行動スクリプトは、顧客またはエンドユーザーがサイト、アプリケーション、またはその他のソフトウェアで実行するアクションまたはパスをシミュレートするために作成される *システム監視サービス [#i3edb3da] -[[アプリの安全な運用に。監視サービスまとめ:https://blog.mbaas.nifcloud.com/entry/2019/10/11/131349?utm_source=feed]] -[[StatusCake や Site24x7 と同じ様な海外のサイト監視サービスを色々と調べてみた:https://qiita.com/kusokamayarou/items/77e0cba7857a90143694]] -[[【最新!サーバー監視ツールおすすめ11選】OSSやSaaSなど比較ポイントも解説:https://qeee.jp/magazine/articles/7830]] -[[サーバー監視ツール比較16選。無料・OSS・有料版ならこれ!:https://www.aspicjapan.org/asu/article/1091]] **[[Site24x7:https://www.site24x7.jp/]] [#q23fb031] [[Site24x7]]のページに移動 **[[Datadog:https://www.datadoghq.com/ja/]] [#bc3ca245] -[[モダンなモニタリングへの変革!Datadog徹底解説:https://pages.awscloud.com/rs/112-TZM-766/images/Datadog_0613.pdf]] -[[IT Infrastructure Monitoring:https://www.datadoghq.com/ja/it-infrastructure-monitoring/]] -[[DataDogとは?SaaSの形式で提供されるITシステムのモニタリングサービス:https://www.skyarch.net/column/datadog/]] -[[Datadogとは? 見て分かる導入 オンプレ サーバー編:https://www.netone.co.jp/knowledge-center/netone-blog/20210716-1/]] -[[Datadogの本当の魅力とは:https://qiita.com/jhotta/items/e7e20a1acd797bf2665b]] -[[Datadogつかいかた備忘録:https://qiita.com/smallpalace/items/7f1afb45aed711e437a1]] -[[小規模なシステムこそDatadogをお勧めしたい:https://blog.tech-monex.com/entry/2020/04/24/]] -[[Datadogの課金体系について:https://qiita.com/t_ume/items/a45fcf5f464beb50d876]] -[[Datadog導入によるSLOの設定:https://www.m3tech.blog/entry/2022/08/31/104925]] -メトリクス監視に必要な「収集」「可視化」「通知」を1つのプロダクトで一気通貫にサポート -豊富なグラフ種類とカスタマイズ性により、自分好みのDashboardを簡単に作れる -Slackなどに対して、グラフ付きでメッセージやアラートを通知する機能がある -各種クラウドサービスに対応 --AWS --Google Cloud --Azure --Kubernetes **[[Mackerel:https://mackerel.io/ja/]] [#qb3a3944] **[[StatusCake:https://www.statuscake.com/]] [#j635732e] **[[Pingdom:https://www.pingdom.com/]] [#w50da1f7] **[[New Relic:https://newrelic.com/jp]] [#r6886cf4] -[[New Relic:モニタリングのための「New Relic」導入:https://logmi.jp/tech/articles/326783]] **[[System Answer G3:https://system-answer.com/product/sag3/]] [#k32d9a95] **[[SAMS:https://system-answer.com/service/sams/]] [#meb838e5] **[[Tegnos:https://www.barnardsoft.co.jp/product/tegnos]] [#ra25f665] **[[PATROLCLARICE:https://patrolclarice.jp/]] [#n5ecee48] **[[SavaMoni.:https://savamoni.com/]] [#a59e1cf6] *インシデント管理サービス [#r3dca793] -[[インシデント管理とは?その具体的な実施手順や関連事項について解説:https://www.lrm.jp/security_magazine/incident-management/]] -[[インシデント管理=障害対応という誤解:https://www.itmedia.co.jp/im/articles/1005/10/news091.html]] -[[インシデントとは何ですか?システム運用における意味と「インシデント管理」で重要なことは?:https://www.resm.jp/faq/answer09/]] -[[インシデントシステムとは?障害ではないインシデント管理について:https://smart-stage.jp/column/005/]] -[[Compare PagerDuty vs. Opsgenie:https://www.pagerduty.com/vs/opsgenie/]] -[[Opsgenie と PagerDuty の比較:https://www.atlassian.com/ja/software/opsgenie/comparison/pagerduty]] **[[Grafana Incident:https://grafana.com/products/incident/]] [#q3c28c9c] -[[インシデント発生時のチーム対応を支援する「Grafana Incident」無料提供 SlackやGitHubなどと連携:https://www.itmedia.co.jp/news/articles/2209/16/news108.html]] **[[PagerDuty:https://ja.pagerduty.com/]] [#r374a902] -[[PagerDutyを使ってみた:http://blog.serverworks.co.jp/tech/2015/10/13/start-pagerduty/]] -[[統合インシデント管理サービスPagerDuty 記事一覧:https://thinkit.co.jp/series/7350]] --[[第1回:システム運用エンジニアを幸せにするソリューションPagerDutyとは:https://thinkit.co.jp/article/13314]] --[[第2回:PagerDutyのエスカレーションポリシーとサービス:https://thinkit.co.jp/article/13420]] --[[第3回:モニタリングシステム連携とインシデントの抑制:https://thinkit.co.jp/article/13558]] --[[第4回:PagerDutyのアプリ連携(Slack/JIRA/Custom Incident Action):https://thinkit.co.jp/article/13627]] --[[第5回:PagerDutyをもっと使い込む コンテナ活用とAPIの利用例:https://thinkit.co.jp/article/13743]] --[[第6回:PagerDuty Tips(Terraform/オンコール通知/インシデント分析):https://thinkit.co.jp/article/13898]] -様々な監視ツール(Site24x7, Datadog, Mackerel, Zabbix 等) からのアラート通知をPagerDutyで集約して、予め設定/登録した任意の通知ルールに従って様々なアクションを実行できる。 -エマージェンシーコールの通知に特化したSaaS -サイトのダウンなどの緊急時に、設定に応じて自動的に監視担当者に電話やSMS、Slack、専用のアプリケーションに対するPushなどで連絡を送る -現在、電話やSMSは英語 -エスカレーションフローの設定が可能 --障害発生時の一次受け対応担当者をカレンダーベースで割り当て --一次受付担当者が応答できなかった際に自動的に二次受付担当者以降にエスカレーション **[[Opsgenie:https://www.atlassian.com/ja/software/opsgenie]] [#ee6eb4e6] *エラー監視サービス [#tc20ed12] -[[ログ収集を効率的に行うために知っておきたい、イマドキのログ収集基盤ツール8選:https://made.livesense.co.jp/entry/2016/06/01/083000]] **[[Sentry:https://sentry.io/welcome/]] [#h271e7f1] -[[Sentryで超簡単!楽々エラー監視-Sentry登録からアプリへの導入方法のすべて-:https://tech-cci.io/archives/4091]] -[[エラー監視には Sentry が超便利!:https://qiita.com/Chanmoro/items/a9cbde57fd6c0926b5b4]] -[[Sentryをちゃんとセットアップしたら、想像以上にできるやつだった話:https://tech.smartshopping.co.jp/Sentry]] -[[Sentryでイベントログ収集をしよう! - Vue.js編 -:https://qiita.com/ferretdayo/items/1aef9f1724ab701bb95f]] -[[業務十倍効率化計画 Sentry API ft. Shell Script:https://labs.septeni.co.jp/entry/2019/08/20/120000]] -[[SentryでElixir(Phoenix)のエラーログを収集:https://funcallfunc.com/elixir/2016/12/30/elixir-phoenix-error-tracking-by-sentry.html]] -[[Sentry+Datadogで「運用の属人化」の壁を越えようとしている話:https://tech.visasq.com/optimize-operation/]] **[[Papertrail:https://www.papertrail.com/]] [#qf80ac1f] -[[papertrailで、無料枠内でエラーログ を収集し続けるには:https://zenn.dev/be_the_light/articles/3d469b9e01e249]] -[[Papertrailに送っているログの流量をDatadogで監視する:https://tech.repro.io/entry/2022/02/14/090000]] **[[Loggly:https://www.loggly.com/]] [#p159ec56] **[[Logentries:https://logentries.com/]] [#v1fe9c36] *パフォーマンス監視サービス [#y6b0b779] **[[Sentry Performance Monitoring:https://sentry.io/for/performance/]] [#se30e26e] -[[PythonとJavaScript向けの新パフォーマンス監視ソフト「Performance Monitoring」:https://jp.techcrunch.com/2020/07/16/2020-07-16-sentry-launches-new-performance-monitoring-software-for-python-and-javascript/]]