Eseguire la migrazione di pool di Spark da Azure Synapse Analytics a Fabric

Mentre Azure Synapse fornisce pool di Spark, Fabric offre pool di avvio e pool personalizzati. Il pool di avvio può essere una scelta ottimale se esiste un singolo pool senza configurazioni o librerie personalizzate in Azure Synapse, e se le dimensioni medie del nodo soddisfano i requisiti. Tuttavia, se si cerca una maggiore flessibilità con le configurazioni dei pool di Spark, è consigliabile usare pool personalizzati. Sono disponibili due opzioni:

  • Opzione 1: è possibile usare Migration Assistant per eseguire la migrazione di notebook da Azure Synapse a Fabric usando un'esperienza più guidata e semplificata.
  • Opzione 2: spostare il pool di Spark nel pool predefinito di un'area di lavoro.
  • Opzione 3: spostare il pool di Spark in un ambiente personalizzato in Fabric.

Se sono presenti più pool di Spark e si prevede di spostarli nella stessa area di lavoro Fabric, è consigliabile usare l'opzione 3, creando più ambienti e pool personalizzati.

Per considerazioni sul pool di Spark, vedere le differenze tra Azure Synapse Spark e Fabric.

Prerequisiti

Se non ne hai già uno, crea un workspace Fabric nel tuo tenant.

Opzione 1: Usare Assistente migrazione

È possibile usare l'assistente migration per la migrazione da Azure Synapse a Fabric. È progettato per offrire un'esperienza guidata e semplificata per la migrazione di notebook e risorse correlate.

Opzione 2: Dal pool di Spark al pool predefinito dell'area di lavoro

È possibile creare un pool di Spark personalizzato dall'area di lavoro di Fabrice usarlo come pool predefinito nell'area di lavoro. Il pool predefinito viene utilizzato da tutti i notebook e dalle definizioni di processi Spark nella stessa area di lavoro.

Per passare da un pool di Spark esistente da Azure Synapse a un pool predefinito dell'area di lavoro:

  1. Accedere all'area di lavoro di Azure Synapse: accedere ad Azure. Spostarsi nell'area di lavoro di Azure Synapse, passare a Pool di analisi e selezionare Pool di Apache Spark.
  2. Individuare il pool di Spark: da Pool di Apache Spark, individuare il pool di Spark da spostare in Fabric e controllare le Proprietà del pool.
  3. Ottenere le proprietà: ottenere le proprietà del pool di Spark, ad esempio la versione di Apache Spark, la famiglia di dimensioni dei nodi, le dimensioni del nodo o la scalabilità automatica. Per visualizzare eventuali differenze, vedere Considerazioni sui pool di Spark.
  4. Creare un pool di Spark personalizzato in Fabric:
    • Passare all'area di lavoro di Fabric e selezionare Impostazioni area di lavoro.
    • Passare a Ingegneria dei dati / Data science e selezionare Impostazioni di Spark.
    • Nella scheda Pool e nella sezione Pool predefinito per l'area di lavoro, espandere il menu a discesa e selezionare Crea nuovo pool.
    • Creare un pool personalizzato con i valori di destinazione corrispondenti. Inserisci il nome, la famiglia di nodi, la dimensione del nodo, la scalabilità automatica e le opzioni di allocazione dinamica degli executor.
  5. Selezionare una versione del runtime:
    • Passare alla scheda Ambiente e selezionare la Versione del runtime richiesta. Visualizza i runtime disponibili qui.
    • Disabilitare l'opzione Imposta ambiente predefinito.

Screenshot che mostra il pool predefinito.

Nota

In questa opzione, le librerie o le configurazioni a livello di pool non sono supportate. Tuttavia, è possibile modificare la configurazione di calcolo per i singoli elementi, ad esempio notebook e definizioni di processi Spark, e aggiungere librerie inline. Se è necessario aggiungere librerie e configurazioni personalizzate a un ambiente, considerare un ambiente personalizzato.

Opzione 3: Dal pool di Spark all'ambiente personalizzato

Con ambienti personalizzati è possibile configurare proprietà e librerie di Spark personalizzate. Per creare un ambiente personalizzato:

  1. Accedere all'area di lavoro di Azure Synapse: accedere ad Azure. Spostarsi nell'area di lavoro di Azure Synapse, passare a Pool di analisi e selezionare Pool di Apache Spark.
  2. Individuare il pool di Spark: da Pool di Apache Spark, individuare il pool di Spark da spostare in Fabric e controllare le Proprietà del pool.
  3. Ottenere le proprietà: ottenere le proprietà del pool di Spark, ad esempio la versione di Apache Spark, la famiglia di dimensioni dei nodi, le dimensioni del nodo o la scalabilità automatica. Per visualizzare eventuali differenze, vedere Considerazioni sui pool di Spark.
  4. Creare un pool di Spark personalizato:
    • Passare all'area di lavoro di Fabric e selezionare Impostazioni area di lavoro.
    • Passare a Ingegneria dei dati / Data science e selezionare Impostazioni di Spark.
    • Nella scheda Pool e nella sezione Pool predefinito per l'area di lavoro, espandere il menu a discesa e selezionare Crea nuovo pool.
    • Creare un pool personalizzato con i valori di destinazione corrispondenti. Inserisci il nome, la famiglia di nodi, la dimensione del nodo, la scalabilità automatica e le opzioni di allocazione dinamica degli executor.
  5. Crea un elemento Ambiente se non ne hai già uno.
  6. Configurare l'ambiente di calcolo Spark:
    • All'interno dell'ambiente, passare ad Ambiente di calcolo Spark>Ambiente di calcolo.
    • Selezionare il pool appena creato per il nuovo ambiente.
    • È possibile configurare i core e la memoria del driver e degli executor.
  7. Selezionare una versione del runtime per l'ambiente. Visualizza i runtime disponibili qui.
  8. Fare clic su Salva e scegliere Pubblica per le modifiche.

Altre informazioni sulla creazione e sull’uso di un ambiente.

Screenshot che mostra l'ambiente personalizzato.