DONNÉES

Débloquez vos données

Comme beaucoup d'entre nous, vous avez peut-être fait du shopping ces dernières semaines et vous vous êtes retrouvé avec une poignée de tickets de caisse. Une fois rentré chez vous, avez-vous pris soin d'aplatir les reçus et de les classer dans différents dossiers en fonction de votre budget personnel, ou les avez-vous jetés dans une pile que vous examinerez plus tard si un échange ou un retour s'avère nécessaire ?

Si vous êtes un commerçant en ligne, savez-vous quels produits suggérer à un acheteur après qu'il a placé quelques articles dans son panier ? Si un article n'est pas trouvé, savez-vous quels sont les articles que l'acheteur a remplacés ? Êtes-vous en mesure de suivre les articles ajoutés puis retirés d'un panier, afin de prendre des décisions fondées sur des données concernant votre offre de produits ?

Historiquement, la gestion des données d'entreprise s'apparente à cette personne qui conserve soigneusement ses tickets de caisse lorsqu'elle rentre chez elle, afin de maintenir activement son système de suivi et de classement du budget. De même, le commerçant en ligne ne peut stocker qu'un enregistrement des derniers articles achetés. Les données structurées et les bases de données relationnelles sont conçues pour prendre en charge ces cas d'utilisation précis. Nous concevons d'emblée le schéma de données pour le cas d'entreprise actuel, nous conservons et validons les données entrantes et nous stockons les informations d'une manière cohérente avec notre schéma directeur.

Dans mon article précédent, Penser différemment les donnéesnous avons examiné le potentiel des données pour accélérer la croissance de votre entreprise. À l'heure où les petites et grandes entreprises se tournent vers des données à grande échelle provenant de sources disparates, la conception initiale d'un schéma de données n'est ni pratique ni souhaitable. Un peu comme si nous mettions nos tickets de caisse dans une pile pour une utilisation ultérieure, nous voulons capturer des données maintenant sans connaître tous les cas d'utilisation, toutes les exigences en matière de reporting ou le meilleur modèle relationnel pour ces données.

Dans cet article, nous examinerons les concepts de gestion et de traitement des données afin de permettre une meilleure compréhension des données.

L'ingestion des données

Le terme "données non structurées" est largement utilisé, mais je trouve qu'il ne rend pas vraiment compte de l'évolution du stockage des données. Les données non structurées ne sont pas un amalgame de caractères incompréhensibles. Chaque donnée a une structure. Le flux de données provenant d'un système source ou d'un appareil IoT fournira des données formatées de manière cohérente au fil du temps. Un meilleur terme pourrait être "données non interprétées", car il indique clairement que nous n'interprétons ni ne transformons les données avant leur stockage, et il laisse ouverte la question du niveau de structure des données. Les données entrantes se conformeront au schéma inhérent au système source. Cependant, nous n'imposons pas de schéma de destination ou de stockage.

Prenons l'exemple d'une pile de tickets de caisse. Ils auront des formats et des présentations de texte différents, bien qu'ils contiennent fondamentalement les mêmes informations sur les articles, les prix et les méthodes de paiement. Le stockage structuré traditionnel conduirait à une conception où chaque reçu est analysé et où les données individuelles sont stockées dans une base de données relationnelle. Les métadonnées relatives aux achats, telles que l'heure d'achat, le nom du vendeur et l'emplacement du magasin, ne sont pas prises en compte. Pour s'assurer d'exploiter la valeur potentielle des données, il convient de les stocker dans leur forme originale afin d'éviter les hypothèses sur les sous-ensembles de données qui peuvent ou non avoir de la valeur.

Outre les données elles-mêmes, il est important de stocker les métadonnées afin de fournir un contexte plus large aux futurs utilisateurs. Les métadonnées peuvent inclure l'horodatage de la réception des informations, les identifiants du système d'origine et le schéma des données entrantes. Ces métadonnées fourniront les informations nécessaires pour interpréter correctement les données au moment de les traiter.

Concepts de stockage

L'expression "Big Data" est largement utilisée, mais il n'existe pas de définition claire de ce qui constitue une "big". Pour certaines organisations, quelques téraoctets de données peuvent représenter une augmentation significative par rapport à leurs besoins historiques de stockage. D'autres entreprises distribuent des pétaoctets de stockage à leurs développeurs comme des bonbons à Halloween. Le concept de Big Data est moins lié à la taille des données elles-mêmes qu'au type de données et à la manière dont elles sont stockées. La planification de l'ingestion des données doit se concentrer sur la sélection d'une solution évolutive répondant aux besoins prévus pour plusieurs années.

Si la plupart des moteurs de base de données traditionnels et des modèles relationnels peuvent s'adapter aux petites organisations, ils atteignent rapidement leurs limites en raison du moteur de base de données centralisé et de la nécessité d'organiser et d'indexer les données de manière structurée. Le stockage sous-jacent peut supporter une croissance significative, mais le taux d'ingestion et de traitement est limité.

Un entrepôt de données est une approche populaire qui permet de conserver les données pour une base d'utilisateurs plus large, dans le cadre d'un business case spécifique. Ces données structurées et conservées sont accessibles à de nombreux utilisateurs et peuvent être facilement utilisées par les outils existants pour des besoins de reporting spécifiques. Elles ne sont pas conçues pour répondre aux besoins futurs de manière flexible. La mise en œuvre d'un entrepôt de données entraîne des coûts initiaux élevés, et les schémas d'utilisation prévus ne sont pas clairs ou sont potentiellement mal alignés sur les besoins des utilisateurs.

C'est là que les lacs de données entrent en jeu. L'évolutivité de ce stockage peut être considérée comme quasiment illimitée pour la plupart des organisations. Les données sont stockées sous forme de petites pépites, un peu comme des fichiers sur un disque dur. Non lié à un moteur de traitement centralisé ou à la mise à jour d'un index, le stockage de nouvelles données n'entraîne que très peu de frais généraux. Les données elles-mêmes peuvent être des JSON, des tampons de protocole, des documents PDF ou tout autre format pratique.

Le traitement des données, c'est-à-dire la lecture de toutes les données individuelles du lac, peut être effectué à l'aide d'algorithmes parallèles, car les données elles-mêmes sont réparties sur un vaste réseau de stockage dans la partie dorsale du lac de données. Ce paradigme de traitement des données reporte la tâche complexe de curation et d'interprétation à un moment où il existe un besoin spécifique et clair pour l'entreprise, tout en préservant un large éventail de données précieuses.

Sortir des silos

Dans notre exemple d'un marchand en ligne, il devrait y avoir des journaux de serveur pour qu'un développeur de logiciel puisse résoudre les problèmes. Ces journaux sont probablement supprimés tous les quelques jours et sont stockés dans un format texte qui n'est pas conçu pour prendre en charge des requêtes complexes. Que se passerait-il si nous intégrions ces journaux dans un lac de données, en stockant un événement pour chaque page vue ou chaque demande d'utilisateur ?

Le système d'archivage explicites comprennent des événements horodatés concernant les produits consultés, les produits ajoutés au panier de l'acheteur, les produits retirés et les transactions terminées.

Les données implicites représentent les habitudes d'achat. Les données agrégées de tous les produits et de toutes les transactions permettent de répondre à des questions telles que le temps passé par un acheteur sur le site de commerce électronique, l'évolution du panier avant la fin de la transaction, les produits similaires comparés avant l'achat et les achats de produits corrélés.

Le silo des journaux de serveur a maintenant été ouvert pour fournir une valeur commerciale. À partir de là, nous pouvons continuer à briser les silos de l'entreprise. Les informations relatives à la logistique et à la livraison peuvent être ajoutées au lac de données. Les informations relatives à la préparation des commandes et à l'emballage peuvent également être intégrées.

Débloquez vos données

Il est essentiel d'établir une stratégie pour l'ingestion, le stockage et le traitement des données. L'accent doit être mis sur la flexibilité pour prendre en charge les cas d'utilisation futurs et l'évolutivité l'évolutivité dans les années à venir, à mesure que des données de plus en plus diverses apparaîtront en plus grand nombre. Il n'est pas nécessaire de disposer d'une plateforme de stockage unique et commune, ni d'un schéma de données bien défini qui englobe toutes les données.

Stockez les données dans le format le plus simple et le plus proche possible de leur format d'origine. Au fur et à mesure que vous développerez de nouveaux cas d'utilisation pour interpréter les données, ces exigences justifieront l'investissement supplémentaire dans la mise en place du pipeline de traitement des données. Les rapports et les analyses de données qui nécessitent des données structurées peuvent être activés en cas de besoin en conservant le sous-ensemble nécessaire de données du lac et en les stockant dans un format ou une base de données appropriés.

La mise en œuvre de la curation et de l'analyse des données lorsque l'on sait qu'elles ont une valeur commerciale garantit que l'effort n'est dépensé que quand et là où il est nécessaire. Au fur et à mesure de l'émergence de cas d'utilisation communs, vous pourrez constater des gains d'efficacité dans le partage de formats intermédiaires semi-structurés et de valeurs dérivées. Suivez une approche agile, en reportant les décisions qui n'ont pas besoin d'être prises maintenant.

Les entreprises les plus prospères tirent parti de leurs données. Pour développer stratégiquement votre entreprise et vous différencier, vous devez libérer le potentiel de vos informations latentes. Contactez à notre équipe d'Improving pour des conseils stratégiques et la réalisation de projets.

Données