DONNÉES

Comment obtenir une meilleure mise à l'échelle via le transfert de données en parallèle en utilisant Spark Connector mis à jour

Alex Le

Développeur de logiciels

September 20, 2022 | 2 Lecture minute

Alex Le, de Improving Vancouver, a écrit à propos de l'Upgraded Spark Connector entre Vertica et Apache Spark dans cetarticle.

Qu'est-ce qu'Apache Spark ?

Apache Spark est un moteur de calcul distribué qui fournit une API robuste pour la science des données, l'apprentissage automatique ou le travail avec des données volumineuses. Il est rapide, évolutif, simple et prend en charge plusieurs langages, notamment Python, SQL, Scala, Java et R. Soutenu par la licence Apache 2.0 et par une vaste communauté open-source, il est l'outil de prédilection pour les calculs de big data.

Vertica et Spark

Spark s'intègre naturellement dans un flux de travail avec Vertica. Par exemple, Vertica agit comme un entrepôt de données et Spark est l'"utilisateur" des données. Les cas d'utilisation courants de Spark incluent le traitement des données de Vertica pour enrichir un modèle ou transformer les données en amont avant de les stocker dans Vertica.

Le connecteur Spark de Vertica

Le connecteur Vertica Spark Connector est un projet open-source développé pour faciliter le transfert de données entre Spark et Vertica en parallèle afin de bénéficier d'un avantage de mise à l'échelle par rapport à JDBC/ODBC lors du transfert de grandes quantités de données entre Spark et Vertica. Comme le connecteur utilise l'API Spark DataSource V2, il peut s'intégrer directement dans la planification et l'optimisation des requêtes Spark SQL. Le connecteur prend également en charge des options supplémentaires spécifiques à Vertica, ce qui en fait le moyen privilégié de connecter Spark à Vertica.

Le connecteur Vertica Spark est open-source et activement maintenu par Vertica pour supporter les dernières versions de Spark 3. Il est considéré comme une mise à jour de l plus ancien plus ancien, qui a été supprimé.

Voici quelques utilisations courantes du connecteur :

ingestion massive de données dans Vertica en parallèle
Intégrer Vertica dans les pipelines ETL Spark existants
Apprentissage automatique à l'aide de VerticaPy et Apache Spark".

...continuer à lire sur le connecteur Vertica Spark mis à jour ici et consultez les fonctionnalités, les exemples et la façon de configurer la solution.

Données