WEBサイト稼動監視ツール「Pingdom」とその連動

WEBサービス開発グループ 共通開発チーム 石井です。

当チームでは自社サービスのWEBサイト約50サイトとサーバ約1,000台の管理をしており、その稼動監視をご紹介します。

監視方法はいくつかありますが、今回は、サイトが機能するかを客観的に監視するツール「Pingdom」を紹介し、それと連動するシステムについて説明します。
ツールを活用することで、障害の検知、記録、一次対応の自動化ができます。

WEBサービス開発グループでは、ツールを活用することで、障害の検知、記録、一次対応の自動化をしています。

Pingdomについて

pingdom

https://www.pingdom.com/

WEBサイトを外部から監視するツールです。

「Uptimeチェック」は簡単な死活監視で、HTTP,HTTPS,SMTP,POP3,IMAPはプロトコルレベルで監視でき、それ以外のプロトコルは、簡単なやりとりであれば監視できます。

「Transactionチェック」は、一定のシナリオに基づいた監視、例えば、ページを表示してID,パスワードを入力してログインボタンを押し遷移したページの内容をチェックする、といった動作が監視できます。

異常を検知した場合は、メール,SMSなどで通知することができます。

Pingdomとの連動について

pingdom-ssh-jira

1. Pingdomでダウンを検知したらサーバアプリを再起動する

これは、Pingdomからの通知メールをGmailに送り、そのメールをGmail APIで取得して該当のメールがあったらコマンドを実行するようにします。

2. Pingdomでダウンを検知したらJIRAにチケットを起票する

JIRAにはメールでチケットを起票する機能があり、1のメールを取得するように設定します。

JIRAからは、POPかIMAPで取得できますので、Gmail側でPOPまたはIMAPでのアクセスを有効にしてJIRAを設定します。これで起票されたチケットに担当者がコメントし、ダウンから復旧までの経過を追うことができます。

まとめ

このようにして、いくつかのツールを連動させてダウンからの復旧を早めたり、経過を記録することが簡単にできます。