Affidabilità in Gestione traffico di Azure

Gestione traffico di Azure è un servizio di bilanciamento del carico del traffico basato su DNS che distribuisce il traffico in modo ottimale tra back-end distribuiti a livello globale. Gestione traffico offre disponibilità elevata e velocità di risposta rapida per le applicazioni pubbliche tramite DNS per indirizzare le richieste client agli endpoint di servizio appropriati in base ai metodi di routing del traffico e al monitoraggio dell'integrità degli endpoint.

Quando si usa Azure, l'affidabilità è una responsabilità condivisa. Microsoft offre una gamma di funzionalità per supportare la resilienza e il ripristino. L'utente è responsabile della comprensione del funzionamento di tali funzionalità all'interno di tutti i servizi usati e della selezione delle funzionalità necessarie per soddisfare gli obiettivi aziendali e gli obiettivi di tempo di attività.

Questo articolo descrive le funzionalità di affidabilità di Gestione traffico di Azure in risposta a una serie di potenziali interruzioni, tra cui errori temporanei e errori a livello di area. Vengono inoltre evidenziate le considerazioni chiave per la gestione della resilienza e la preparazione per il ripristino e offre una panoramica del contratto di servizio Gestione traffico di Azure.

Note

Questo articolo descrive come il servizio Gestione traffico è resiliente o come renderlo resiliente a vari problemi. Non spiega come usare Gestione traffico per eseguire il failover tra applicazioni o aree. Per un'architettura di failover di esempio, vedere applicazione web multilivello progettata per l'alta disponibilità e il recupero di emergenza.

Raccomandazioni per la distribuzione di produzione

Azure Well-Architected Framework offre raccomandazioni per affidabilità, prestazioni, sicurezza, costi e operazioni. Per scoprire come queste aree si influenzano a vicenda e contribuiscono a una soluzione affidabile per Traffic Manager, consulta Architecture best practices for Gestione traffico di Azure in the Well-Architected Framework.

Panoramica dell'architettura di affidabilità

Questa sezione descrive alcuni degli aspetti importanti del funzionamento del servizio più rilevanti dal punto di vista dell'affidabilità. La sezione presenta l'architettura logica, che include alcune delle risorse e delle funzionalità distribuite e usate. Illustra anche l'architettura fisica, che fornisce informazioni dettagliate sul funzionamento del servizio sotto le quinte.

Architettura logica

Quando si usa Gestione traffico, si distribuisce un profilo, che specifica gli endpoint back-end dell'applicazione e configura il modo in cui Gestione traffico deve instradare le richieste a tali endpoint. Per altre informazioni, vedere Endpoint di Traffic Manager e metodi di routing di Traffic Manager.

Un profilo di Traffic Manager si presenta come un record CNAME DNS. Quando riceve una richiesta di risoluzione da un client o da un resolver DNS, Gestione traffico risolve in modo dinamico l'indirizzo IP in base alle regole specificate nel profilo. La responsabilità del Gestore del traffico è fornire ai client l'indirizzo IP di un endpoint per consentire l'accesso al servizio. Dopo la risoluzione dei nomi, nessun traffico della tua applicazione transita tramite Traffic Manager. Per altre informazioni, vedere Funzionamento di Gestione traffico.

Gestione traffico monitora l'integrità degli endpoint e indirizza le richieste in ingresso agli endpoint integri evitando endpoint non integri. Per altre informazioni, vedere Monitoraggio degli endpoint di Gestione traffico.

Importante

L'affidabilità della soluzione complessiva dipende dalla configurazione degli endpoint a cui gestione traffico instrada il traffico.

Questo articolo non tratta gli endpoint, ma le relative configurazioni di disponibilità influiscono direttamente sulla resilienza dell'applicazione. Esaminare le guide all'affidabilità per i servizi di Azure nella soluzione per informazioni su come ogni servizio supporta i requisiti di affidabilità.

Architettura fisica

Gestione traffico opera come servizio non regionale e distribuisce l'infrastruttura in più zone di disponibilità in più aree di Azure in tutto il mondo. Questa progettazione consente a Traffic Manager di mantenersi resiliente durante un'interruzione di zona o regione di disponibilità, poiché l'infrastruttura in un'altra zona o regione continua a rispondere alle richieste di risoluzione.

Protocolli Internet globali come Anycast, DNS e BGP instradano automaticamente le richieste di risoluzione DNS in ingresso all'infrastruttura di Gestione traffico più vicina.

Resilienza a errori temporanei

Gli errori temporanei sono errori brevi e intermittenti nei componenti. Si verificano spesso in un ambiente distribuito come il cloud e fanno parte delle normali operazioni. Gli errori temporanei si correggono dopo un breve periodo di tempo. È importante che le applicazioni possano gestire gli errori temporanei, in genere ritentando le richieste interessate.

Tutte le applicazioni ospitate nel cloud devono seguire le indicazioni sulla gestione degli errori temporanei di Azure quando comunicano con qualsiasi API, database e altri componenti ospitati nel cloud. Per altre informazioni, vedere Raccomandazioni per la gestione degli errori temporanei.

Traffic Manager opera a livello di DNS e utilizza sonde di integrità per monitorare la disponibilità degli endpoint. Il servizio gestisce gli errori temporanei tramite l'infrastruttura DNS globale e le funzionalità di monitoraggio degli endpoint.

Quando si usa Gestione traffico, considerare separatamente i tipi di errori temporanei seguenti:

  • Errori temporanei durante la risoluzione DNS: Se si verifica un errore temporaneo durante la risoluzione DNS, il sistema di risoluzione client o intermedio deve riprovare.

  • Errori temporanei che interessano gli endpoint back-end:Il monitoraggio degli endpoint di Gestione traffico controlla regolarmente l'integrità degli endpoint. Un guasto temporaneo all'interno di un endpoint o nel percorso di rete verso un endpoint potrebbe essere rilevato come endpoint non funzionante. Configurare il monitoraggio degli endpoint per cercare problemi consecutivi in un periodo di tempo.

La durata (TTL) del record DNS determina il modo in cui la soluzione gestisce gli errori. Se la durata del TTL è molto bassa, i client devono effettuare più richieste a Traffic Manager, creando maggiori opportunità per il verificarsi di errori temporanei. Se il valore TTL è molto elevato, in caso di errore effettivo in un endpoint, i client potrebbero riscontrare ritardi nel failover fino alla scadenza del TTL. Configurare attentamente i TTL per bilanciare disponibilità, latenza e velocità di risposta. Quando si usa DNS di Azure, può configurare automaticamente il TTL del record in modo che corrisponda al valore TTL del profilo, ovvero 60 secondi per impostazione predefinita. Per ulteriori informazioni, vedere Considerazioni sulle prestazioni per Traffic Manager.

Resilienza ai guasti delle zone di disponibilità

Le zone di disponibilità sono gruppi di data center separati fisicamente all'interno di un'area di Azure. In caso di guasto in una zona, i servizi possono passare a una delle zone restanti.

Gestione traffico opera come servizio non regionale e distribuisce l'infrastruttura in più zone di disponibilità in più aree di Azure in tutto il mondo. Replica le modifiche apportate al profilo in modo sincrono in queste zone e aree. Questa progettazione consente a Traffic Manager di rimanere resiliente durante un'interruzione di una zona di disponibilità, poiché l'infrastruttura in un'altra zona o regione continua a rispondere alle richieste di risoluzione.

Resilienza agli errori a livello di area

Gestione traffico opera come servizio non regionale e distribuisce l'infrastruttura in più zone di disponibilità in più aree di Azure in tutto il mondo. Questa progettazione consente a Gestione traffico di rimanere resiliente durante un'interruzione dell'area, perché l'infrastruttura in un'altra zona o area continua a rispondere alle richieste di risoluzione.

Resilienza alle interruzioni del portale e degli strumenti di gestione

Se si gestisce il profilo di Gestione traffico nel portale di Azure, prepararsi per gli scenari in cui non è possibile accedervi, soprattutto se è necessario riconfigurare il profilo durante un'interruzione della piattaforma.

Analogamente ad altri servizi di Azure, Gestione traffico supporta la distribuzione e la gestione tramite un'ampia gamma di strumenti. È consigliabile acquisire familiarità con come usare interfaccia della riga di comando di Azure o Azure PowerShell per gestire il profilo. In alternativa, distribuisci e configura il tuo profilo usando tecnologie di Infrastructure as Code come Bicep o Terraform. Questi strumenti rimangono operativi anche se il portale di Azure è danneggiato.

Backup e ripristino

Il Traffic Manager è un servizio DNS senza stato. Non rende persistenti i dati e non dispone di funzionalità di backup o ripristino.

Per proteggere la configurazione delle risorse, definire i profili di Gestione del traffico e altre risorse utilizzando l'infrastruttura come codice (ad esempio Bicep o modelli ARM) e archiviare tali definizioni nel sistema di controllo delle versioni. Se è necessario ricreare una risorsa, ridistribuirla dalla configurazione archiviata.

Resilienza alla manutenzione del servizio

Microsoft applica regolarmente gli aggiornamenti del servizio ed esegue altre operazioni di manutenzione. La piattaforma Azure gestisce automaticamente queste attività, garantendo che la manutenzione sia fluida e trasparente per l'utente. Non è previsto alcun tempo di inattività durante gli eventi di manutenzione, a meno che non ti sia stato comunicato tramite la manutenzione pianificata di integrità dei servizi di Azure.

Contratto di servizio

Il contratto di servizio per i servizi di Azure descrive la disponibilità prevista di ogni servizio e le condizioni che la soluzione deve soddisfare per raggiungere tale aspettativa di disponibilità. Per ulteriori informazioni, vedere Accordi sul livello di servizio (SLA) per i servizi online.

Gestione traffico di Azure fornisce un contratto di servizio di disponibilità di 100% per le risposte alle query DNS, purché i client riprovano ripetutamente a eseguire richieste non riuscite.