workcloud.jp

サービス停止 / Service Outage

Post-mortem

※日本語は英語の後に続きます。

Overview
A Workcloud server stopped responding, causing an outage that prevented users from logging into the system.
Time and duration of downtime
July 8 (Monday) 08:49 to 09:11 (22 minutes)
Effects of the outage
Complete outage: Users were unable to log in to the system, or to use any system functions.
No data loss occurred as a result of the outage, however, the clock-in data from Pit Touch devices (IC card time clock) were temporarily not saved to the server.
Scale of failure
This outage affected all users of the Workcloud system.

Cause of the outage
Insufficient disk space, caused by the accumulation of temporary files, caused the server to stop responding, leading to the unscheduled downtime.
In addition to this, the Low Disk Space alert failed to trigger due to a failure to reapply resource alert mappings properly during a previous scheduled maintenance.
As a result, it was not detected ahead of time that server resources were critically low.

Immediate Response
The server was restarted with additional disk space. This resolved the issue.
Timeline of response and recovery
July 8 08:49: Initial report of outage received
08:49 - 08:57: Determine cause and extent of failure and prepare immediate response
08:57 - 09:11: Allocate additional disk space and restart server
09:11: Restart complete. Service restored.
July 10 12:00 - 18:00: Verify that all Pit Touch time data had been received and saved to the database.
*Pit Touch devices are configured to resend data if not received by the server.

Permanent response
Reconfigure the Low Disk Space (and all other) alerts to be automatically activated at the completion of all server maintenance activities.
Implement a batch task to remove temporary files automatically.


概要
サーバー機の停止により、一定時間システムにログインできない事象が発生しました。
発生日時とダウンタイム
7月8日(月)AM8:49~AM9:11(22分間)
障害内容
システム停止: システムへのログイン、および全機能の使用が不可能となりました。
当障害によるデータ損失はありませんでした。ただし、ピットタッチ(ICカード打刻機)からの打刻データが一時的にサーバー側へ保存されない状態が発生しました。
障害規模
全てのお客様においてシステムを利用できない状態が発生しました。

発生原因
一時ファイルの蓄積が原因で空きディスク領域が不足し、サーバが停止しました。
また、ディスク容量不足アラート機能が、定期メンテナンス時の完了後のアラート設定における認識不足による作業ミスのため、作動しませんでした。
そのため、容量不足を事前検知する事ができませんでした。

暫定対応
リカバリの為、サーバー容量を増加させる対応を行い、再起動することでシステムログイン可能な状況へ復旧しました。
対応の経緯
7/8 AM 8:49 障害が起きている報告を受ける
AM 8:49 ~ AM 8:57 サーバー障害の原因の確認と対応策の検討
AM 8:57 ~ AM 9:11 サーバー容量増加対応の準備・再起動・確認
AM 9:11 サービス復旧
7/10 PM 12:00 ~PM 18:00 ダウンタイムにピットタッチ(ICカード打刻機)から打刻されたデータがシス テムに全数保存されていることの確認
※なお、ピットタッチからの打刻はサーバーに保存されない場合、保存されるまで再送信を繰り返す 仕様になっております。(1分間隔で繰り返し送信)

恒久対応
ディスク容量不足アラート機能は、各作業完了時に自動設定される仕様へ変更します。
サーバーメンテナンス時に作られる一時ファイルを自動削除する設定を追加し、常にディスク容量を確保できるよう致します。

Resolvido
Investigando

7月8日8:49から9:11、サービスが一時停止となりました。現在は復旧しています。
ご利用のみなさまに大変ご迷惑をおかけいたしまして、深くお詫びを申し上げます。
原因の調査を実行しております。

Our servers had a failure between 8:49 and 9:11 on July 8. Service has now been restored.
We sincerely apologize for the inconvenience caused, and are doing a post-incident analysis right now.