¿Qué es Apache Spark?
Apache Spark es un motor de computación distribuida que proporciona una API robusta para la ciencia de datos, el aprendizaje automático o el trabajo con big data. Es rápido, escalable, sencillo y compatible con varios lenguajes, como Python, SQL, Scala, Java y R. Respaldado por la licencia Apache 2.0 y apoyado por una enorme comunidad de código abierto, es la herramienta de referencia para los cálculos de big data.
Vertica y Spark
Spark encaja de forma natural en un flujo de trabajo con Vertica. Por ejemplo, Vertica actúa como almacén de datos y Spark es el "usuario" de los datos. Los casos de uso habituales de Spark incluyen el procesamiento de datos de Vertica para enriquecer un modelo o transformar los datos antes de almacenarlos en Vertica.
El conector Spark de Vertica
La página Vertica Spark Connector es un proyecto de código abierto desarrollado para facilitar la transferencia de datos entre Spark y Vertica en paralelo para tener una ventaja con el escalado en comparación con JDBC/ODBC cuando se transfieren grandes cantidades de datos entre Spark y Vertica. Dado que el conector utiliza la API Spark DataSource V2, es capaz de integrarse directamente en la planificación y optimización de consultas SQL de Spark. El conector también admite opciones adicionales específicas de Vertica, lo que lo convierte en la forma preferida de conectar Spark a Vertica.
El conector Spark de Vertica es de código abierto y es mantenido activamente por Vertica para soportar las últimas versiones de Spark 3. Se considera una actualización de la versión anterior. Se considera una actualización de la versión antiguo antiguo, que ha quedado obsoleto.
Algunos usos comunes del conector son
Ingesta masiva de datos en Vertica en paralelo
Integración de Vertica en canalizaciones ETL Spark existentes
Aprendizaje automático mediante VerticaPy y Apache Spark".
...seguir leyendo sobre el conector Vertica Spark actualizado aquí y compruebe las características, ejemplos y cómo configurar la solución.