Cloud Monitoring & Observability Guide

Introduction

Observability is essential for understanding, debugging, and optimizing cloud applications. This guide covers the three pillars of observability—metrics, logs, and traces—across all major cloud providers, with practical CLI examples.

Overview of cloud observability showing metrics, logs, and traces flowing from applications into monitoring platforms — Figure 1: Cloud observability overview — metrics, logs, and traces collected from applications and infrastructure feed into unified monitoring platforms for analysis and alerting.

                            What We'll Cover:
                            Metrics - Quantitative measurements over time
Logs - Discrete events and messages
Traces - Request flow across services
Alerts - Proactive notification of issues
Dashboards - Visual representation of system health

                        

Cloud Computing Mastery

Your 11-step learning path • Currently on Step 10

Monitoring & Observability

CloudWatch, Azure Monitor, logging

You Are Here

DevOps & CI/CD

Pipelines, infrastructure as code, GitOps

Observability Pillars

Architecture Context: For observability patterns specific to microservices (log aggregation, health check APIs, exception tracking, audit logging, deployment annotations) and resilience patterns (circuit breaker, bulkhead, retry), see System Design Part 5: Microservices Architecture and Part 10: Monitoring & Observability.

The Three Pillars

Pillar	Description	Use Cases
Metrics	Numeric measurements collected at regular intervals	CPU usage, memory, request count, latency percentiles
Logs	Timestamped records of discrete events	Error messages, audit trails, application events
Traces	End-to-end journey of a request through services	Debugging latency, finding bottlenecks, service dependencies

Key Metrics to Monitor

Golden Signals (Google SRE)

Latency - Time to service a request (p50, p95, p99)
Traffic - Demand on your system (requests/sec)
Errors - Rate of failed requests (5xx, 4xx)
Saturation - How "full" your service is (CPU, memory, queue depth)

Provider Comparison

Feature	AWS	Azure	GCP
Primary Service	CloudWatch	Azure Monitor	Cloud Operations (Stackdriver)
Metrics	CloudWatch Metrics	Azure Metrics	Cloud Monitoring
Logs	CloudWatch Logs	Log Analytics	Cloud Logging
Tracing	X-Ray	Application Insights	Cloud Trace
Alerting	CloudWatch Alarms	Azure Alerts	Alerting Policies
Dashboards	CloudWatch Dashboards	Azure Dashboards / Workbooks	Cloud Monitoring Dashboards
APM	X-Ray + CloudWatch	Application Insights	Cloud Trace + Profiler
Query Language	CloudWatch Logs Insights	Kusto Query Language (KQL)	Logging Query Language

AWS CloudWatch

Amazon CloudWatch

Unified monitoring - Metrics, logs, alarms in one service
Auto-collected metrics - EC2, Lambda, RDS, etc.
Custom metrics - Publish your own application metrics
Logs Insights - Query and analyze log data

AWS CloudWatch architecture showing metrics collection from EC2, Lambda, and RDS feeding into alarms, dashboards, and Logs Insights — Figure 3: AWS CloudWatch architecture — auto-collected and custom metrics from AWS services flow into unified dashboards, alarms, and Logs Insights for analysis.

CloudWatch Metrics

# List available metrics for EC2
aws cloudwatch list-metrics --namespace AWS/EC2

# Get CPU utilization for an instance
aws cloudwatch get-metric-statistics \
    --namespace AWS/EC2 \
    --metric-name CPUUtilization \
    --dimensions Name=InstanceId,Value=i-1234567890abcdef0 \
    --start-time $(date -u -d '1 hour ago' +%Y-%m-%dT%H:%M:%SZ) \
    --end-time $(date -u +%Y-%m-%dT%H:%M:%SZ) \
    --period 300 \
    --statistics Average Maximum

# Publish custom metric
aws cloudwatch put-metric-data \
    --namespace MyApplication \
    --metric-name RequestCount \
    --value 100 \
    --unit Count \
    --dimensions Environment=Production,Service=API

# Publish metric with timestamp
aws cloudwatch put-metric-data \
    --namespace MyApplication \
    --metric-data '[
        {
            "MetricName": "ProcessingTime",
            "Value": 250,
            "Unit": "Milliseconds",
            "Timestamp": "'$(date -u +%Y-%m-%dT%H:%M:%SZ)'",
            "Dimensions": [
                {"Name": "Environment", "Value": "Production"},
                {"Name": "Operation", "Value": "ProcessOrder"}
            ]
        }
    ]'

# Get metric data with math expressions
aws cloudwatch get-metric-data \
    --metric-data-queries '[
        {
            "Id": "cpu",
            "MetricStat": {
                "Metric": {
                    "Namespace": "AWS/EC2",
                    "MetricName": "CPUUtilization",
                    "Dimensions": [{"Name": "InstanceId", "Value": "i-1234567890abcdef0"}]
                },
                "Period": 300,
                "Stat": "Average"
            }
        },
        {
            "Id": "high_cpu",
            "Expression": "IF(cpu > 80, cpu, 0)",
            "Label": "High CPU Periods"
        }
    ]' \
    --start-time $(date -u -d '1 hour ago' +%Y-%m-%dT%H:%M:%SZ) \
    --end-time $(date -u +%Y-%m-%dT%H:%M:%SZ)

CloudWatch Logs

# Create log group
aws logs create-log-group --log-group-name /myapp/production

# Create log stream
aws logs create-log-stream \
    --log-group-name /myapp/production \
    --log-stream-name api-server-1

# Put log events
aws logs put-log-events \
    --log-group-name /myapp/production \
    --log-stream-name api-server-1 \
    --log-events '[
        {"timestamp": '$(date +%s000)', "message": "Application started"},
        {"timestamp": '$(date +%s000)', "message": "Connected to database"}
    ]'

# Set retention policy
aws logs put-retention-policy \
    --log-group-name /myapp/production \
    --retention-in-days 30

# Query logs with Logs Insights
aws logs start-query \
    --log-group-name /myapp/production \
    --start-time $(date -u -d '1 hour ago' +%s) \
    --end-time $(date -u +%s) \
    --query-string 'fields @timestamp, @message
        | filter @message like /ERROR/
        | sort @timestamp desc
        | limit 100'

# Get query results
aws logs get-query-results --query-id "abc123-def456"

# Create metric filter from logs
aws logs put-metric-filter \
    --log-group-name /myapp/production \
    --filter-name ErrorCount \
    --filter-pattern "ERROR" \
    --metric-transformations '[
        {
            "metricName": "ApplicationErrors",
            "metricNamespace": "MyApplication",
            "metricValue": "1",
            "defaultValue": 0
        }
    ]'

# Subscribe to log group (send to Lambda)
aws logs put-subscription-filter \
    --log-group-name /myapp/production \
    --filter-name AllLogs \
    --filter-pattern "" \
    --destination-arn arn:aws:lambda:us-east-1:123456789012:function:ProcessLogs

CloudWatch Alarms

# Create alarm for high CPU
aws cloudwatch put-metric-alarm \
    --alarm-name HighCPU \
    --alarm-description "CPU utilization exceeds 80%" \
    --metric-name CPUUtilization \
    --namespace AWS/EC2 \
    --dimensions Name=InstanceId,Value=i-1234567890abcdef0 \
    --statistic Average \
    --period 300 \
    --threshold 80 \
    --comparison-operator GreaterThanThreshold \
    --evaluation-periods 2 \
    --alarm-actions arn:aws:sns:us-east-1:123456789012:alerts

# Create alarm for error rate
aws cloudwatch put-metric-alarm \
    --alarm-name HighErrorRate \
    --alarm-description "Error rate exceeds 5%" \
    --metrics '[
        {
            "Id": "errors",
            "MetricStat": {
                "Metric": {
                    "Namespace": "AWS/ApplicationELB",
                    "MetricName": "HTTPCode_Target_5XX_Count",
                    "Dimensions": [{"Name": "LoadBalancer", "Value": "app/my-alb/123456"}]
                },
                "Period": 60,
                "Stat": "Sum"
            }
        },
        {
            "Id": "requests",
            "MetricStat": {
                "Metric": {
                    "Namespace": "AWS/ApplicationELB",
                    "MetricName": "RequestCount",
                    "Dimensions": [{"Name": "LoadBalancer", "Value": "app/my-alb/123456"}]
                },
                "Period": 60,
                "Stat": "Sum"
            }
        },
        {
            "Id": "error_rate",
            "Expression": "(errors/requests)*100",
            "Label": "Error Rate"
        }
    ]' \
    --threshold 5 \
    --comparison-operator GreaterThanThreshold \
    --evaluation-periods 3 \
    --alarm-actions arn:aws:sns:us-east-1:123456789012:alerts

# Create composite alarm
aws cloudwatch put-composite-alarm \
    --alarm-name CriticalSystemAlarm \
    --alarm-rule "ALARM(HighCPU) AND ALARM(HighMemory)" \
    --alarm-actions arn:aws:sns:us-east-1:123456789012:critical-alerts

# List alarms
aws cloudwatch describe-alarms --state-value ALARM

# Disable alarm actions
aws cloudwatch disable-alarm-actions --alarm-names HighCPU

Azure Monitor

Full-stack monitoring - Infrastructure to application
Log Analytics - Powerful query language (KQL)
Application Insights - APM and distributed tracing
Workbooks - Interactive reports and visualizations

Azure Metrics

# List metric definitions for a VM
az monitor metrics list-definitions \
    --resource /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.Compute/virtualMachines/myVM

# Get CPU metrics
az monitor metrics list \
    --resource /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.Compute/virtualMachines/myVM \
    --metric "Percentage CPU" \
    --interval PT1M \
    --start-time $(date -u -d '1 hour ago' +%Y-%m-%dT%H:%M:%SZ) \
    --end-time $(date -u +%Y-%m-%dT%H:%M:%SZ)

# Get multiple metrics
az monitor metrics list \
    --resource /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.Compute/virtualMachines/myVM \
    --metrics "Percentage CPU" "Available Memory Bytes" "Disk Read Bytes" \
    --aggregation Average Maximum \
    --interval PT5M

# Create Application Insights resource
az monitor app-insights component create \
    --app myAppInsights \
    --resource-group myRG \
    --location eastus \
    --application-type web

# Get instrumentation key
az monitor app-insights component show \
    --app myAppInsights \
    --resource-group myRG \
    --query instrumentationKey

Log Analytics

# Create Log Analytics workspace
az monitor log-analytics workspace create \
    --resource-group myRG \
    --workspace-name myWorkspace \
    --location eastus \
    --sku PerGB2018

# Get workspace ID
az monitor log-analytics workspace show \
    --resource-group myRG \
    --workspace-name myWorkspace \
    --query customerId -o tsv

# Query logs with KQL
az monitor log-analytics query \
    --workspace $(az monitor log-analytics workspace show -g myRG -n myWorkspace --query customerId -o tsv) \
    --analytics-query "
        AzureActivity
        | where TimeGenerated > ago(1h)
        | where Level == 'Error'
        | project TimeGenerated, OperationName, ResourceGroup, Caller
        | order by TimeGenerated desc
        | take 50
    "

# Query Application Insights
az monitor app-insights query \
    --app myAppInsights \
    --resource-group myRG \
    --analytics-query "
        requests
        | where timestamp > ago(1h)
        | summarize count(), avg(duration) by bin(timestamp, 5m)
        | order by timestamp desc
    "

# Enable diagnostic settings (send to Log Analytics)
az monitor diagnostic-settings create \
    --name myDiagSettings \
    --resource /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.Web/sites/myWebApp \
    --workspace $(az monitor log-analytics workspace show -g myRG -n myWorkspace --query id -o tsv) \
    --logs '[
        {"category": "AppServiceHTTPLogs", "enabled": true},
        {"category": "AppServiceConsoleLogs", "enabled": true},
        {"category": "AppServiceAppLogs", "enabled": true}
    ]' \
    --metrics '[{"category": "AllMetrics", "enabled": true}]'

Azure Alerts

# Create action group
az monitor action-group create \
    --resource-group myRG \
    --name myActionGroup \
    --short-name myAG \
    --email-receiver name=admin email=admin@example.com \
    --sms-receiver name=oncall country-code=1 phone-number=5551234567

# Create metric alert
az monitor metrics alert create \
    --resource-group myRG \
    --name HighCPUAlert \
    --scopes /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.Compute/virtualMachines/myVM \
    --condition "avg Percentage CPU > 80" \
    --window-size 5m \
    --evaluation-frequency 1m \
    --severity 2 \
    --action /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.Insights/actionGroups/myActionGroup

# Create log alert
az monitor scheduled-query create \
    --resource-group myRG \
    --name ErrorLogAlert \
    --scopes /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.OperationalInsights/workspaces/myWorkspace \
    --condition "count > 10" \
    --condition-query "
        AppServiceAppLogs
        | where Level == 'Error'
        | summarize count() by bin(TimeGenerated, 5m)
    " \
    --evaluation-frequency 5m \
    --window-size 5m \
    --severity 2 \
    --action /subscriptions/xxx/resourceGroups/myRG/providers/Microsoft.Insights/actionGroups/myActionGroup

# List alerts
az monitor metrics alert list --resource-group myRG --output table

GCP Cloud Operations

Google Cloud Operations Suite

Cloud Monitoring - Metrics and dashboards
Cloud Logging - Centralized log management
Cloud Trace - Distributed tracing
Cloud Profiler - Continuous profiling