Background Image
DATOS

Cómo conseguir un mejor escalado mediante la transferencia paralela de datos utilizando Spark Connector actualizado

Alex Le

Desarrollador de software

September 20, 2022 | 2 Minuto(s) de lectura

Alex Le, de Improving Vancouver, escribió sobre el conector Spark actualizado entre Vertica y Apache Spark en esteartículo.

¿Qué es Apache Spark?

Apache Spark es un motor de computación distribuida que proporciona una API robusta para la ciencia de datos, el aprendizaje automático o el trabajo con big data. Es rápido, escalable, sencillo y compatible con varios lenguajes, como Python, SQL, Scala, Java y R. Respaldado por la licencia Apache 2.0 y apoyado por una enorme comunidad de código abierto, es la herramienta de referencia para los cálculos de big data.

Vertica y Spark

Spark encaja de forma natural en un flujo de trabajo con Vertica. Por ejemplo, Vertica actúa como almacén de datos y Spark es el "usuario" de los datos. Los casos de uso habituales de Spark incluyen el procesamiento de datos de Vertica para enriquecer un modelo o transformar los datos antes de almacenarlos en Vertica.

El conector Spark de Vertica

La página Vertica Spark Connector es un proyecto de código abierto desarrollado para facilitar la transferencia de datos entre Spark y Vertica en paralelo para tener una ventaja con el escalado en comparación con JDBC/ODBC cuando se transfieren grandes cantidades de datos entre Spark y Vertica. Dado que el conector utiliza la API Spark DataSource V2, es capaz de integrarse directamente en la planificación y optimización de consultas SQL de Spark. El conector también admite opciones adicionales específicas de Vertica, lo que lo convierte en la forma preferida de conectar Spark a Vertica.

El conector Spark de Vertica es de código abierto y es mantenido activamente por Vertica para soportar las últimas versiones de Spark 3. Se considera una actualización de la versión anterior. Se considera una actualización de la versión antiguo antiguo, que ha quedado obsoleto.

Algunos usos comunes del conector son

  • Ingesta masiva de datos en Vertica en paralelo

  • Integración de Vertica en canalizaciones ETL Spark existentes

  • Aprendizaje automático mediante VerticaPy y Apache Spark".

...seguir leyendo sobre el conector Vertica Spark actualizado aquí y compruebe las características, ejemplos y cómo configurar la solución.

Datos

Reflexiones más recientes

Explore las entradas de nuestro blog e inspírese con los líderes de opinión de todas nuestras empresas.
Blog Image - Unveiling the Future of AI at Google Cloud Next 24 -1
IA/ML

Unveiling the Future of AI at Google Cloud Next ‘24

Get firsthand insights from Improving into the innovation brewing around artificial intelligence and cloud computing at Google Cloud Next '24.