A l’issu de ce tutoriel, vous serez en mesure de construire des chargements de données depuis le stockage objet vers un datamart Postgres.
Les données préalablement chargées dans le stockage objet sont deux fichiers présentant des clients et des commandes
Depuis le module “Connections” on ajoute une nouvelle connection par le bouton “+ New”.
Les types de connections disponibles pour ajouts sont celles intégrées dans votre plateforme par l’administrateur. DataTask utilise le standard Singer pour définir ses connections et Flows (https://singer.io).
Après avoir choisi “AWS S3“ vous allez pouvoir renseigner les paramètres de celle-ci, et la créer.
Si il s’agit de votre première connection dans le projet, elle deviendra celle utilisée par défaut pour le stockage objet.
L’ajout d’une base Postgres se fait d’une manière similaire au stockage S3 après avoir choisi “PostGresSQL”
Avant de commencer à intégrer des données on peut vérifier le contenu du stockage à partir du module “Object Storage”. Tous les buckets disponibles dans le compte de stockage peuvent être parcourus.
Ici on va aller dans le bucket “demo-retail” pour verifie rla présence et le contenu des fichiers mentionnées 1 et 2 ci-dessous
En cliquant sur l’un de ce fichiers on obtient une pré-visualiation de celui-ci
<aside> 📌 Seul le compte de stockage principal est disponible, les prochaines versions permettrons de choisir le compte de stockage à utiliser.
</aside>
Un Flow est la combinaison de 2 connections, et de paramètres pour interagir avec ceux-ci. Dans le module “Flows” on va pouvoir gérer les connections existantes et en ajouter de nouvelles.
Pour chaque connection on va avoir les informations suivantes :
La création se fait via “+ New”
En sélectionnant une de nos connections existantes (ici on prends le stockage de type S3 paramétré préalablement) on peut ensuite choisir de le type de reader qui sera utilisé.
Dans notre cas nos fichiers sont de type CSV, on va donc prendre un “CSV reader S3”
Le Filepath va mentionner le chemin absolu vers “dossier” dans le stockage utilisé.
Stream défini la table destination
Mask est le nom du fichjer qui sera utilisé, il est possible d’utiliser des caractères * pour prendre plusieurs fichiers dans le flux
Delimiter permet de spécifier un séparateur spécifique si nécessaire. Si ce champs est laissé vide, alors la première ligne servira d’étiquettes de champs et toutes les colonnes seront considérées comme du texte.
Le Schema du fichier entrant est défini par une chaine de caractères.
Archive permet de définir ou sera stocké le fichier une fois son traitement effectué.
Delete permet d’activer la suppression du fichier une fois son traitement effectué
RowError et FileError permet de stopper le traitement à la première erreur rencontrée
Après avoir choisi notre Writer de type PostgresSQL comme destination, on accède à un formulaire de paramétrage ou nous allons pouvoir choisir le schéma de destination.
En sélectionnant le Flow que nous venons de créer depuis l’écran “Flows”, on peut visualiser tous les paramètres de celui-ci, les modifier le cas échéant, voir ses différentes executions passées et en lancer de nouvelles.
Les executions passées sont affichées en fonction de l’engine sélectionné.
Pour executer le Flow on va choisir un “engine” (DataTask ou Clever Cloud, ou tout autre cible qui aurait été définie par votre administrateur) et appuyer sur “Launch”. Une nouvelle entrée va apparaitre dans la liste des executions. Le bouton “Refresh” permet de suivre le statut de l’execution.
En cliquant sur nom de la Task on peut voir celle-ci en détail
Les logs vont permettre de suivre de manière très détaillée l’execution de la tache.
On va répéter ici les même opérations avec les pramètres suivants :
Connexions Flows Tasks, Artefacts & Bundles Transformations SQL Navigateur de stockage Explorateur de données Exposition de services
Charger de la donnée Modéliser avec DBT Créer un artefact custom
<aside> 📖 Documentation - © DataTask sas 2022
</aside>