Getting Started : Charger de la donnée

A l’issu de ce tutoriel, vous serez en mesure de construire des chargements de données depuis le stockage objet vers un datamart Postgres.

Les données préalablement chargées dans le stockage objet sont deux fichiers présentant des clients et des commandes

Création de 2 connections
1. S3
2. PGSQL
Verification des données dans le storage
Creation et execution du Flow “Customers”
Creation et execution d’un Flow “Orders”

Création d’une connection au stockage S3

Untitled

Depuis le module “Connections” on ajoute une nouvelle connection par le bouton “+ New”.

Untitled

Les types de connections disponibles pour ajouts sont celles intégrées dans votre plateforme par l’administrateur. DataTask utilise le standard Singer pour définir ses connections et Flows (https://singer.io).

Après avoir choisi “AWS S3“ vous allez pouvoir renseigner les paramètres de celle-ci, et la créer.

Si il s’agit de votre première connection dans le projet, elle deviendra celle utilisée par défaut pour le stockage objet.

Création d’une connection à une base PGSQL

Screenshot 2022-10-17 at 06.07.40.png

L’ajout d’une base Postgres se fait d’une manière similaire au stockage S3 après avoir choisi “PostGresSQL”

Vérification du Stockage

Avant de commencer à intégrer des données on peut vérifier le contenu du stockage à partir du module “Object Storage”. Tous les buckets disponibles dans le compte de stockage peuvent être parcourus.

Ici on va aller dans le bucket “demo-retail” pour verifie rla présence et le contenu des fichiers mentionnées 1 et 2 ci-dessous

Untitled

En cliquant sur l’un de ce fichiers on obtient une pré-visualiation de celui-ci

Untitled

<aside> 📌 Seul le compte de stockage principal est disponible, les prochaines versions permettrons de choisir le compte de stockage à utiliser.

</aside>

Création du Flow “Customers”

Un Flow est la combinaison de 2 connections, et de paramètres pour interagir avec ceux-ci. Dans le module “Flows” on va pouvoir gérer les connections existantes et en ajouter de nouvelles.

Untitled

Pour chaque connection on va avoir les informations suivantes :

Nom et description
Type de Reader et Connection utilisée
Type du Writer et Connection utilisée

La création se fait via “+ New”

Untitled

En sélectionnant une de nos connections existantes (ici on prends le stockage de type S3 paramétré préalablement) on peut ensuite choisir de le type de reader qui sera utilisé.

Dans notre cas nos fichiers sont de type CSV, on va donc prendre un “CSV reader S3”

Untitled

Le Filepath va mentionner le chemin absolu vers “dossier” dans le stockage utilisé.

Stream défini la table destination

Mask est le nom du fichjer qui sera utilisé, il est possible d’utiliser des caractères * pour prendre plusieurs fichiers dans le flux

Delimiter permet de spécifier un séparateur spécifique si nécessaire. Si ce champs est laissé vide, alors la première ligne servira d’étiquettes de champs et toutes les colonnes seront considérées comme du texte.

Le Schema du fichier entrant est défini par une chaine de caractères.

Archive permet de définir ou sera stocké le fichier une fois son traitement effectué.

Delete permet d’activer la suppression du fichier une fois son traitement effectué

RowError et FileError permet de stopper le traitement à la première erreur rencontrée

Untitled

Après avoir choisi notre Writer de type PostgresSQL comme destination, on accède à un formulaire de paramétrage ou nous allons pouvoir choisir le schéma de destination.

Execution du Flow “Customers”

En sélectionnant le Flow que nous venons de créer depuis l’écran “Flows”, on peut visualiser tous les paramètres de celui-ci, les modifier le cas échéant, voir ses différentes executions passées et en lancer de nouvelles.

Untitled

Les executions passées sont affichées en fonction de l’engine sélectionné.

Pour executer le Flow on va choisir un “engine” (DataTask ou Clever Cloud, ou tout autre cible qui aurait été définie par votre administrateur) et appuyer sur “Launch”. Une nouvelle entrée va apparaitre dans la liste des executions. Le bouton “Refresh” permet de suivre le statut de l’execution.

En cliquant sur nom de la Task on peut voir celle-ci en détail

Untitled

Les logs vont permettre de suivre de manière très détaillée l’execution de la tache.

Création et Execution du flow Orders

On va répéter ici les même opérations avec les pramètres suivants :

Nom du fichier : TPCH_SF1_Orders.csv
Stream : tpch_orders