Fase 3: Hive Metastore og datamigrering

Denne artikel er fase 3 af 4 i Azure Synapse Spark to Microsoft Fabric migration best practices-serien.

Brug denne artikel, når du er klar til at migrere dit Hive Metastore-katalog og planlægge dataadgang i Fabric. Denne artikel fokuserer på to beslutninger: hvordan du migrerer din tabelmetadata, og om du skal bruge OneLake-genveje (zero-copy) eller flytte data til tilgængelig lagring.

I denne artikel lærer du, hvordan du:

  • Vurder administrerede vs. eksterne tabeller for at bestemme din migrationsmetode.
  • Eksporter og importer Hive Metastore-metadata ved hjælp af notebook-workflows.
  • Opret OneLake-genveje for nul-kopiadgang til eksisterende datakilder.
  • Vælg mellem genveje, kopipipelines og masseoverførselsværktøjer til dataflytning.

Tips

Opret din mål-Lakehouse med skemaer aktiveret. Lakehouse-skemaer giver dig mulighed for at organisere tabeller i navngivne samlinger (for eksempel salg, marketing, hr). Spark Migration Assistant mapper standard Synapse-databasen til dbo-skemaet og yderligere databaser til yderligere skemaer i samme Lakehouse. Skemaer er aktiveret som standard, når man opretter et nyt Lakehouse i Fabric-portalen.

For den fulde HMS-migreringsguide, se Migrate Hive Metastore metadata.

Vurder administrerede vs. eksterne tabeller

Det afgørende første skridt er at skelne mellem managed og eksterne tabeller i din Synapse Hive Metastore.

  • Eksterne tabeller: Hvis data er i ADLS Gen2 i Delta-format, opret OneLake-genveje direkte til ADLS Gen2-stierne. Ingen dataflytning nødvendig.
  • Administrerede tabeller: Data gemmes i Synapses interne lagermappe. Du skal oprette OneLake-genveje til denne sti eller kopiere data til en tilgængelig ADLS Gen2-lokation.

Synapse managed table warehouse directory path:

abfss://<container>@<storage>.dfs.core.windows.net/synapse/workspaces/<workspace>/warehouse

Migreringsarbejdsgang

Microsoft leverer eksport/import af notebooks til Hive Metastore-migrering. Processen har to faser.

For den fulde HMS-migreringsguide, se Migrate Hive Metastore metadata.

Fase 1: Eksport metadata fra Synapse

  1. Importer HMS eksportnotebooken til dit Azure Synapse arbejdsområde. Denne notebook forespørger og eksporterer HMS-metadata fra databaser, tabeller og partitioner til en mellemliggende mappe i OneLake.

  2. Konfigurer parametrene. Indstil dit Synapse-arbejdsområdenavn, databasenavne til eksport og målet OneLake lakehouse til staging. Spark interne katalog-API bruges til at læse katalogobjekter.

  3. Kør eksporten. Udfør alle notesbogsceller. Metadata skrives til filsektionen i din Fabric Lakehouse i et struktureret mappehierarki.

Fase 2: Importer metadata til Fabric Lakehouse

  1. Opret genveje til dataadgang. Opret en genvej i Filer-sektionen i Lakehouse, der peger på Synapse Spark-lagermappen. Dette gør managed table-data tilgængelige for Fabric.

  2. Konfigurer lagermappinger. For administrerede tabeller skal WarehouseMappings erstatte gamle Synapse-lagermapper med genvejsstier i Fabric. Alle administrerede tabeller konverteres til eksterne tabeller under importen.

  3. Kør importnotebooken i Fabric for at oprette katalogobjekter (databaser, tabeller, partitioner) i Lakehouse ved hjælp af Sparks interne katalog-API.

  4. Verificer. Tjek at alle importerede tabeller er synlige i Lakehouse Explorer UI's Tables-sektion.

Begrænsninger og overvejelser

  • Migreringsscripts bruger Sparks interne katalog-API, ikke direkte HMS-databaseforbindelser. Dette skalerer måske ikke godt for meget store kataloger — for store miljøer kan du overveje at ændre eksportlogikken for at forespørge HMS-databasen direkte.

  • Der er ingen isolationsgaranti under eksport. Hvis Synapse Spark-beregningen samtidig ændrer metastore, kan der introduceres inkonsistente data. Planlæg migrering i et vedligeholdelsesvindue.

  • Funktioner er ikke inkluderet i de nuværende migrationsscripts.

  • Efter migrationen giver OneLake-genveje løbende adgang til data. Hvis Synapse fortsætter med at skrive til de samme ADLS Gen2-stier, ser Fabric de opdaterede data via genveje automatisk (data-niveau synkronisering). Dog vil nye tabeller eller skemaændringer i Synapse HMS ikke automatisk udbrede sig — du skal køre migrationsscripts igen eller manuelt oprette nye tabeller i Fabric Lakehouse.

  • External Hive Metastore (Azure SQL DB / MySQL): Nogle Synapse-arbejdsområder bruger et eksternt HMS understøttet af Azure SQL Database eller Azure Database for MySQL til at bevare katalogmetadata uden for arbejdsområdet og dele det med HDInsight eller Databricks. Fabric understøtter ikke forbindelse til en ekstern Hive Metastore — den bruger udelukkende Lakehouse-kataloget. Hvis du bruger et eksternt HMS, skal du migrere metadataene til Fabric Lakehouse-kataloget. Du kan gøre dette ved at forespørge den eksterne HMS-database direkte (via JDBC) for at eksportere tabeldefinitioner og derefter genskabe dem i Fabric ved hjælp af Spark SQL eller HMS-importnotebooks. Bemærk, at ekstern HMS-understøttelse i Synapse er udfaset efter Spark 3.4.

Tips

For løbende synkronisering, når både Synapse og Fabric er aktive: brug OneLake-genveje til data-niveau synkronisering (automatisk), og planlæg periodiske genkørsler af HMS-eksport/import-notebooks eller byg en afstemningsnotebook til at opdage og synkronisere nye tabeller.

Datamigrationsmuligheder

Du har data i ADLS Gen2, der er knyttet til dit Synapse-arbejdsområde, som du skal gøre tilgængeligt i Fabric Lakehouse uden unødvendig dataduplikering. Vælg mellem følgende tilgange.

  • OneLake genveje (anbefalet, nul-kopi): Opret genveje i Fabric Lakehouse, der peger på dine eksisterende ADLS Gen2-stier. Delta-formatdata i tabellesektionen registreres automatisk i Lakehouse-kataloget. CSV/JSON/Parquet-data placeres i Filer-sektionen. Ingen databevægelse kræves.

  • MSsparkutils fastCP: Til at kopiere data fra ADLS Gen2 til OneLake i notesbøger.

  • AzCopy: Kommandolinjeværktøj til masse-datakopiering fra ADLS Gen2 til OneLake.

  • Data Factory Copy Activity: Brug Fabric Data Factory (eller eksisterende ADF/Synapse-pipelines) til at kopiere data til Lakehouse.

  • Azure Storage Explorer: Visuelt værktøj til at flytte filer fra ADLS Gen2 til OneLake.

Tips

Foretræk genveje frem for dataflytning, når det er muligt. Genveje undgår dataduplikering og lageromkostninger, og Delta-tabeller i tabellerne kan automatisk opdages i SQL-analyse-endpointet og Power BI.