Dépôts
Généralités - Dépôt
La fonction Dépôt de DataChain est accessible depuis le module GenericsData.
Le nombre de dépôts pouvant être créés n’est pas limité.
Un dépôt permet de définir une façon de lire des données depuis un connecteur (Local, BDD, ou autre).
Chaque connecteur doit être lié au moins à un dépôt.
Dans le cas de l’intégration rapide, seul le dépôt est créé, vous ne trouverez aucun connecteur "Local".
Le dépôt représente le Niveau 2 de la chaîne de valeurs DataChain.
Cette fonction est indispensable à la consommation de données dans DataChain.
Le dépôt est toujours associé à un connecteur .
Le connecteur définit le mode de lecture des données.
En fonction du connecteur, les types de lecteur peuvent être variés.
Un dépôt alimente une ou plusieurs Entités Métier .
Création d’un Dépôt
Liste des Dépôts existants
La création d’un dépôt est réalisée depuis le module GenericsData..
-
Accéder au module GenericsData.
-
Choisir, dans le menu gauche GenericsData, l’option Dépôts associée à l’icône.
Les métadonnées
-
Clic sur le bouton.
.
-
Chaque Dépôt possède un panneau des métadonnées. La saisie d’un libellé est obligatoire.
Des zones de saisie optionnelles permettent d’apporter des informations complémentaires. Une icône peut ainsi être affectée au dépôt via les commandes présentes dans son panneau des métadonnées.
Il est conseillé d’enregistrer ce panneau dès la saisie effectuée. Utiliser le bouton
situé dans la partie droite du bandeau haut de l’écran.
Choix d’un connecteur
Deux grands types de connecteur sont disponibles dans DataChain.
Connecteur Local (ou mode sans connecteur)
DataChain embarque un connecteur dans son déploiement de base. Il permet d’intégrer des données sans avoir besoin de créer un connecteur.
Noter que dans le cas de l’utilisation d’un connecteur local, les données seront physiquement stockées dans le contexte DataChain.
Pour utiliser le connecteur local, cliquer sur l’option sans connecteur .
Connecteur Externe
Pour utiliser, le mode dépôt externe, cliquer sur le bouton option .
L’option mode de dépôt externe oblige à préciser un connecteur déjà existant dans DataChain. Pour choisir un connecteur , utiliser la zone de choix
.
La liste propose tous les connecteurs autorisés.
Noter que dans le cas d’utilisation d’un connecteur externe, les données seront physiquement à l'extérieur du contexte DataChain.
Pour rappel, voici les types de connecteurs présents de base dans DataChain :
-
Local : sans paramétrage, natif et non accessible depuis la gestion des connecteurs.
-
SFTP
-
HTTP
-
HTTPS
-
S3 (AWS)
-
Base de Données Sql et NoSql
-
HDFS
-
ElasticSearch
-
…
En fonction du connecteur choisi, les paramétrages du dépôt peuvent varier.
Types de dépôt - Paramétrage
Connecteurs : Connecteur Local
Fichier avec séparateur
-
Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.
-
Séparateur : Indique le caractère qui est utilisé comme caractère de séparation.
-
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Cette valeur peut-être modifiée.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Modes de lecture : 3 modes possibles
-
PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
-
DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
-
FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
-
-
Entête : Indique si la première ligne contient les entêtes des colonnes.
-
Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.
Fichier Parquet
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Fichier Json
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.
-
Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json
-
Json Path : Détermine le niveau pour la détection des entêtes
-
Explode(s) : Indiquer si une (ou des opérations) d'explode doit être réalisée au niveau du JsonPath (1 par défaut)
Fichier Xml
-
Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.
-
Modes de lecture : 3 modes possibles
-
PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
-
DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
-
FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
-
-
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.
-
Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.
-
Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Excel
-
Adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.
-
Mot de passe du Classeur : Si le fichier Excel est protégé par Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.
Connecteurs : SFTP, HDFS et S3
Fichier avec séparateur
-
Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.
-
Séparateur : Indique le caractère qui est utilisé comme caractère de séparation.
-
Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Modes de lecture : 3 modes possibles
-
PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
-
DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
-
FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
-
-
Entête : Indique si la première ligne contient les entêtes des colonnes.
-
Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.
-
Chemin : Indique l’emplacement des fichiers à traiter.
Fichier Parquet
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Chemin : Indique l’emplacement des fichiers à traiter.
Fichier Json
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Encodage : Permet d’indiquer le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.
-
Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json
-
Chemin : Indique l’emplacement des fichiers à traiter.
-
Json Path : Indique le niveau pour la détection des entêtes
-
Explode(s) : Indique si une ou des opérations d'explode doivent être réalisées au niveau du JsonPath (1 par défaut)
Fichier Xml
-
Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.
-
Modes de lecture : 3 modes possibles
-
PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
-
DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
-
FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
-
-
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.
-
Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.
-
Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Chemin : Indique l’emplacement des fichiers à traiter.
Excel
-
L’adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.
-
Mot de passe du Classeur : Si le fichier Excel est protégé par Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.
-
Chemin : Indique l’emplacement des fichiers à traiter.
Connecteurs : Http / Https / REST
Fichier avec séparateur
-
Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.
-
Séparateur : Permet de définir le caractère qui est utilisé comme caractère de séparation.
-
Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté par défaut.
-
Modes de lecture : 3 modes possibles
-
PERMISSIVE : Tente d’analyser toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
-
DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
-
FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
-
-
Entête : Indique si la première ligne contient les entêtes des colonnes.
-
Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.
-
Méthode : Méthode à appliquer GET ou POST.
-
URI : Précise l’URL qui sera consommée par le connecteur Http / Https. Utiliser la loupe située en bout de ligne pour réaliser une saisie plus structurée de l’URI à l’aide d’une fonction de Parseur d’URI.
-
Header : Permet de générer des couples clé-valeur pour le header
-
Body : Pour la méthode POST permet de préciser le Body
Fichier Parquet
-
Méthode : Méthode à appliquer GET ou POST
-
URI : Indique l’URL qui sera consommée par le connecteur Http / Https
-
Header : Permet de générer des couples clé-valeur pour le header
-
Body : Pour la méthode POST permet de préciser le Body
Fichier Json
-
Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté par défaut
-
Méthode : Méthode à appliquer GET ou POST
-
URI : Indique l’URL qui sera consommée par le connecteur Http / Https
-
Header : Permet de générer des couples clé-valeur pour le header
-
Body : Pour la méthode POST permet de préciser le Body
-
Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json
-
Json Path : Indique le niveau pour la détection des entêtes
-
Explode(s) : Indique si une ou des opérations d'explode doivent être réalisées au niveau du JsonPath (1 par défaut)
Fichier Xml
-
Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.
-
Modes de lecture : 3 modes possibles
-
PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
-
DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
-
FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
-
-
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.
-
Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.
-
Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Méthode : Méthode à appliquer GET ou POST.
-
URI : Indique l’URL qui sera consommée par le connecteur Http / Https.
-
Header : Permet de générer des couples clé-valeur pour le header.
-
Body : Pour la méthode POST permet de préciser le Body.
Excel
-
L’adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.
-
Mot de passe du Classeur : Si le fichier Excel est protégé par un Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.
-
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
-
Méthode : Méthode à appliquer GET ou POST
-
URI : Indique l’URL qui sera consommée par le connecteur Http / Https.
-
Header : Permet de générer des couples clé-valeur pour le header.
-
Body : Pour la méthode POST permet de préciser le Body.
Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.
Paramètres avancés Dépôt sur connecteur Http/Https (GET et POST)
-
Paramètres Généraux (certains paramètres dépendent du type de retour attendu (CSV, JSON, etc …))
-
Permet d’ajouter des couples clé-valeur dans l’entête de la requête
-
Gestion des itérations
Itérations par Offset
-
Variable ajoutée automatiquement à l’URI
-
Délai d’attente entre chaque itération
-
Ligne de début de lecture
-
Nombre de ligne(s) lu(es) à chaque itération
-
Nombre d’itération(s)
-
Contenu dans le corps renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)
-
Contenu dans l’entête renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)
Itérations par Page
-
Variable ajoutée automatiquement à l’URI
-
Délai d’attente entre chaque itération
-
Page de début de lecture
-
Page de fin de lecture
-
Nombre d’itération(s)
-
Contenu dans le corps renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)
-
Contenu dans l’entête renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)
Exemple de paramétrage avec la méthode POST : 4 itérations maximum avec un skip de 50.
Enregistrement du paramétrage
-
Une fois les paramétrages effectués, cliquer sur le bouton
.
Suite à l’enregistrement et afin de déduire les entêtes disponibles dans le fichier lu, il est obligatoire de réaliser l’action de Synchronisation des entêtes.
Cliquer sur le bouton
situé dans la zone
afin de réaliser cette opération.
La synchronisation des entêtes doit être réalisée suite à la création du dépôt.
Fonctions disponibles pour la gestion des dépôts
Zone de définition du connecteur et du lecteur.
Zone de définition des paramètres du lecteur. Ces paramètres varient en fonction du connecteur et du lecteur utilisés.
Onglet Entités Métier liées : liste l’ensemble des Entités Métier qui consomment le dépôt.
Zone contenant les fonctions disponibles pour un dépôt.
Onglet Entêtes : contient les entêtes référence des fichiers.
Onglet Fichiers Distants : permet de visualiser le ou les fichiers présents dans le dépôt.
- Actions sur fichiers distants :
-
-
Visualiser : Cliquer sur l’icône "Loupe" située en bout de la ligne
-
Télécharger : Cliquer sur l’icône "Télécharger" située en bout de la ligne
-
Onglet Extractions : permet de réaliser des extractions horodatées des valeurs sources. Le nombre d’extractions n’est pas limité.
Noter que les extractions réalisées peuvent être consommées par les blocs de données.
La fonction Extractions peut être utilisée comme fonction d’historisation.
Onglet Filtres : permet de générer des filtres (qui seront appliqués au niveau du lien entre l’Entité Métier et le dépôt) sur les extractions afin de pouvoir les exploiter de manière partielle dans les blocs de données.
Exemple : Les 3 dernières extractions, les extractions des 10 derniers jours…
Action obligatoire : synchronise les entêtes.
Un dépôt peut alimenter n Entités Métier. Le nombre d’Entités Métier pouvant être alimentées par le même dépôt n’est pas limité.
À partir de la liste des Entités Métier, il est possible de réaliser la création d’une Entité Métier. Dans ce cas, la nouvelle Entité Métier sera initialisée avec les entêtes du dépôt.
Explorateur de fichier
L’explorateur est disponible pour les Dépôts liés aux Connecteurs de type HDFS, MiNio, S3 et SFTP.
La fonction permet de visualiser et définir facilement le chemin vers le répertoire contenant les fichiers distants à intégrer.
Pour explorer les fichiers distants, cliquer sur la loupe située sur la ligne "Chemin".
Édition d’un Dépôt
-
Accès au module GenericsData
-
Barre de Menu Gauche
-
Choix du Menu Dépôt
-
Recherche dans la liste du dépôt
Les listes des éléments de l’offre DataChain possèdent des fonctions de filtre et de recherche sur colonnes. Utiliser ces fonctions pour trouver le dépôt ciblé.
-
Clic sur le libellé du dépôt choisi ou sur l’icône
en bout de ligne.
-
Suppression d’un Dépôt
-
Accès au module GenericsData
-
Accès à la barre de Menu Gauche
-
Choix du Menu Dépôts
-
Recherche dans la liste des dépôts
Les listes des éléments de l’offre DataChain possèdent des fonctions de filtre et de recherche sur colonnes. Utiliser ces fonctions pour trouver le dépôt ciblé.
-
Option 1 Utiliser le bouton l’icône
en bout de ligne et confirmer l’action.
-
Option 2
-
Cliquer sur le libellé du dépôt choisi ou sur l’icône
en bout de ligne.
-
Une fois la page d’édition du dépôt affichée, cliquer sur le bouton
puis confirmer l’action.
-
Quick Référence
Création d’un Dépôt
Accéder au module GenericData
Étapes | Objectif | Action | Repères |
---|---|---|---|
1 |
Accès à la liste des Dépôts |
Cliquer sur icône dépôts |
|
2 |
Création d’un nouveau dépôt |
Cliquer sur l’icône Nouveau |
|
4 |
Ajout de métadonnées |
Saisir des informations |
Libellé Obligatoire |
5 |
Choix d’un connecteur |
Choisir dans la liste des Connecteurs disponibles ou Utiliser le dépôt local |
|
6 |
Enregistrer |
Cliquer sur bouton Enregistrer |
|
7 |
Définition des paramètres |
Saisie des informations de paramétrage |
|
8 |
Synchroniser la structure de données avec le dépôt |
Cliquer sur le bouton |
|
9 |
Enregistrer |
Cliquer sur bouton Enregistrer |
|