DATOS

Cómo conseguir un mejor escalado mediante la transferencia paralela de datos utilizando Spark Connector actualizado

Alex Le

Desarrollador de software

September 20, 2022 | 2 Minuto(s) de lectura

Alex Le, de Improving Vancouver, escribió sobre el conector Spark actualizado entre Vertica y Apache Spark en esteartículo.

¿Qué es Apache Spark?

Apache Spark es un motor de computación distribuida que proporciona una API robusta para la ciencia de datos, el aprendizaje automático o el trabajo con big data. Es rápido, escalable, sencillo y compatible con varios lenguajes, como Python, SQL, Scala, Java y R. Respaldado por la licencia Apache 2.0 y apoyado por una enorme comunidad de código abierto, es la herramienta de referencia para los cálculos de big data.

Vertica y Spark

Spark encaja de forma natural en un flujo de trabajo con Vertica. Por ejemplo, Vertica actúa como almacén de datos y Spark es el "usuario" de los datos. Los casos de uso habituales de Spark incluyen el procesamiento de datos de Vertica para enriquecer un modelo o transformar los datos antes de almacenarlos en Vertica.

El conector Spark de Vertica

La página Vertica Spark Connector es un proyecto de código abierto desarrollado para facilitar la transferencia de datos entre Spark y Vertica en paralelo para tener una ventaja con el escalado en comparación con JDBC/ODBC cuando se transfieren grandes cantidades de datos entre Spark y Vertica. Dado que el conector utiliza la API Spark DataSource V2, es capaz de integrarse directamente en la planificación y optimización de consultas SQL de Spark. El conector también admite opciones adicionales específicas de Vertica, lo que lo convierte en la forma preferida de conectar Spark a Vertica.

El conector Spark de Vertica es de código abierto y es mantenido activamente por Vertica para soportar las últimas versiones de Spark 3. Se considera una actualización de la versión anterior. Se considera una actualización de la versión antiguo antiguo, que ha quedado obsoleto.

Algunos usos comunes del conector son