Dépôts

Généralités - Dépôt

La fonction Dépôt de DataChain est accessible depuis le module GenericsData.

Le nombre de dépôts pouvant être créés n’est pas limité.

Un dépôt permet de définir une façon de lire des données depuis un connecteur (Local, BDD, ou autre).
Chaque connecteur doit être lié au moins à un dépôt.
Dans le cas de l’intégration rapide, seul le dépôt est créé, vous ne trouverez aucun connecteur "Local".

Le dépôt représente le Niveau 2 de la chaîne de valeurs DataChain.

Cf. Principes Généraux.

Chaîne de valeurs

Cette fonction est indispensable à la consommation de données dans DataChain.

Le dépôt est toujours associé à un connecteur .

Le connecteur définit le mode de lecture des données.

En fonction du connecteur, les types de lecteur peuvent être variés.

Un dépôt alimente une ou plusieurs Entités Métier .

Création d’un Dépôt

Liste des Dépôts existants

La création d’un dépôt est réalisée depuis le module GenericsData..

Accéder au module GenericsData.
Choisir, dans le menu gauche GenericsData, l’option Dépôts associée à l’icône.

Liste Depots

Les métadonnées

Clic sur le bouton. .
Chaque Dépôt possède un panneau des métadonnées. La saisie d’un libellé est obligatoire.

Des zones de saisie optionnelles permettent d’apporter des informations complémentaires. Une icône peut ainsi être affectée au dépôt via les commandes présentes dans son panneau des métadonnées.

information Il est conseillé d’enregistrer ce panneau dès la saisie effectuée. Utiliser le bouton situé dans la partie droite du bandeau haut de l’écran.

Choix d’un connecteur

Deux grands types de connecteur sont disponibles dans DataChain.

Connecteur Local (ou mode sans connecteur)

DataChain embarque un connecteur dans son déploiement de base. Il permet d’intégrer des données sans avoir besoin de créer un connecteur.

Noter que dans le cas de l’utilisation d’un connecteur local, les données seront physiquement stockées dans le contexte DataChain.

Pour utiliser le connecteur local, cliquer sur l’option sans connecteur .

Connecteur Externe

Pour utiliser, le mode dépôt externe, cliquer sur le bouton option .

L’option mode de dépôt externe oblige à préciser un connecteur déjà existant dans DataChain. Pour choisir un connecteur , utiliser la zone de choix .

La liste propose tous les connecteurs autorisés.

Noter que dans le cas d’utilisation d’un connecteur externe, les données seront physiquement à l'extérieur du contexte DataChain.

Pour rappel, voici les types de connecteurs présents de base dans DataChain :

Local : sans paramétrage, natif et non accessible depuis la gestion des connecteurs.
SFTP
HTTP
HTTPS
S3 (AWS)
Base de Données Sql et NoSql
HDFS
ElasticSearch
…

information En fonction du connecteur choisi, les paramétrages du dépôt peuvent varier.

Types de dépôt - Paramétrage

Connecteurs : Connecteur Local

Fichier avec séparateur

Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.
Séparateur : Indique le caractère qui est utilisé comme caractère de séparation.
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Cette valeur peut-être modifiée.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Modes de lecture : 3 modes possibles
- PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
- DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
- FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
Entête : Indique si la première ligne contient les entêtes des colonnes.
Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.

Fichier Parquet

Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Fichier Json

Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.
Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json
Json Path : Détermine le niveau pour la détection des entêtes
Explode(s) : Indiquer si une (ou des opérations) d'explode doit être réalisée au niveau du JsonPath (1 par défaut)

Fichier Xml

Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.
Modes de lecture : 3 modes possibles
- PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
- DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
- FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.
Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.
Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Excel

Adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.
Mot de passe du Classeur : Si le fichier Excel est protégé par Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.

Binaire

Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Connecteurs : SFTP, HDFS et S3

Fichier avec séparateur

Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.
Séparateur : Indique le caractère qui est utilisé comme caractère de séparation.
Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Modes de lecture : 3 modes possibles
- PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
- DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
- FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
Entête : Indique si la première ligne contient les entêtes des colonnes.
Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.
Chemin : Indique l’emplacement des fichiers à traiter.

Fichier Parquet

Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Chemin : Indique l’emplacement des fichiers à traiter.

Fichier Json

Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Encodage : Permet d’indiquer le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.
Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json
Chemin : Indique l’emplacement des fichiers à traiter.
Json Path : Indique le niveau pour la détection des entêtes
Explode(s) : Indique si une ou des opérations d'explode doivent être réalisées au niveau du JsonPath (1 par défaut)

Fichier Xml

Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.
Modes de lecture : 3 modes possibles
- PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
- DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
- FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.
Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.
Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Chemin : Indique l’emplacement des fichiers à traiter.

Excel

L’adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.
Mot de passe du Classeur : Si le fichier Excel est protégé par Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.

Chemin : Indique l’emplacement des fichiers à traiter.

Binaire

Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondants au masque de lecture seront pris en compte.
Chemin : Permet de définir l’emplacement des fichiers à traiter.

Connecteurs : Http / Https / REST

Fichier avec séparateur

Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.
Séparateur : Permet de définir le caractère qui est utilisé comme caractère de séparation.
Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté par défaut.
Modes de lecture : 3 modes possibles
- PERMISSIVE : Tente d’analyser toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
- DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
- FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
Entête : Indique si la première ligne contient les entêtes des colonnes.
Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.
Méthode : Méthode à appliquer GET ou POST.
URI : Précise l’URL qui sera consommée par le connecteur Http / Https. Utiliser la loupe située en bout de ligne pour réaliser une saisie plus structurée de l’URI à l’aide d’une fonction de Parseur d’URI.
Header : Permet de générer des couples clé-valeur pour le header
Body : Pour la méthode POST permet de préciser le Body

Fichier Parquet

Méthode : Méthode à appliquer GET ou POST
URI : Indique l’URL qui sera consommée par le connecteur Http / Https
Header : Permet de générer des couples clé-valeur pour le header
Body : Pour la méthode POST permet de préciser le Body

Fichier Json

Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté par défaut
Méthode : Méthode à appliquer GET ou POST
URI : Indique l’URL qui sera consommée par le connecteur Http / Https
Header : Permet de générer des couples clé-valeur pour le header
Body : Pour la méthode POST permet de préciser le Body
Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json
Json Path : Indique le niveau pour la détection des entêtes
Explode(s) : Indique si une ou des opérations d'explode doivent être réalisées au niveau du JsonPath (1 par défaut)

Fichier Xml

Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.
Modes de lecture : 3 modes possibles
- PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.
- DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.
- FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.
Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.
Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.
Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Méthode : Méthode à appliquer GET ou POST.
URI : Indique l’URL qui sera consommée par le connecteur Http / Https.
Header : Permet de générer des couples clé-valeur pour le header.
Body : Pour la méthode POST permet de préciser le Body.

Excel

L’adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.
Mot de passe du Classeur : Si le fichier Excel est protégé par un Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.
Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.
Méthode : Méthode à appliquer GET ou POST
URI : Indique l’URL qui sera consommée par le connecteur Http / Https.
Header : Permet de générer des couples clé-valeur pour le header.
Body : Pour la méthode POST permet de préciser le Body.

Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.

Paramètres avancés Dépôt sur connecteur Http/Https (GET et POST)

Paramètre HTTP(S)

Paramètres Généraux (certains paramètres dépendent du type de retour attendu (CSV, JSON, etc …))
Permet d’ajouter des couples clé-valeur dans l’entête de la requête
Gestion des itérations

Itérations par Offset

Paramètre HTTP(S)

Variable ajoutée automatiquement à l’URI
Délai d’attente entre chaque itération
Ligne de début de lecture
Nombre de ligne(s) lu(es) à chaque itération
Nombre d’itération(s)
Contenu dans le corps renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)
Contenu dans l’entête renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)

Itérations par Page

Paramètre HTTP(S)

Variable ajoutée automatiquement à l’URI
Délai d’attente entre chaque itération
Page de début de lecture
Page de fin de lecture
Nombre d’itération(s)
Contenu dans le corps renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)
Contenu dans l’entête renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)

Paramètre exemple POST

Exemple de paramétrage avec la méthode POST : 4 itérations maximum avec un skip de 50.

Connecteurs : Base de Données type NoSql

MongoDB

Collection : Préciser dans cette zone de saisie la collection MongoDb

NEO4J

Requête Cypher : Préciser dans cette zone la requête à réaliser. Cliquer sur "Aperçu" pour afficher les données du résultat de la requête.

Connecteurs : Base de Données Sql

Script : Permet de définir le script Sql qui sera utilisé lors de la récupération des données.

Enregistrement du paramétrage

Une fois les paramétrages effectués, cliquer sur le bouton .

Attention Suite à l’enregistrement et afin de déduire les entêtes disponibles dans le fichier lu, il est obligatoire de réaliser l’action de Synchronisation des entêtes. Cliquer sur le bouton Synchro situé dans la zone afin de réaliser cette opération.

Attention La synchronisation des entêtes doit être réalisée suite à la création du dépôt.

Fonctions disponibles pour la gestion des dépôts

Description de l’écran des fonctions dans un dépôt

Zone de définition du connecteur et du lecteur.

Zone de définition des paramètres du lecteur. Ces paramètres varient en fonction du connecteur et du lecteur utilisés.

Onglet Entités Métier liées : liste l’ensemble des Entités Métier qui consomment le dépôt.

Zone contenant les fonctions disponibles pour un dépôt.

Onglet Entêtes : contient les entêtes référence des fichiers.

Onglet Fichiers Distants : permet de visualiser le ou les fichiers présents dans le dépôt.

Actions sur fichiers distants :

Visualiser : Cliquer sur l’icône "Loupe" située en bout de la ligne
Télécharger : Cliquer sur l’icône "Télécharger" située en bout de la ligne

Onglet Extractions : permet de réaliser des extractions horodatées des valeurs sources. Le nombre d’extractions n’est pas limité.

Attention Noter que les extractions réalisées peuvent être consommées par les blocs de données.

Attention La fonction Extractions peut être utilisée comme fonction d’historisation.

Onglet Filtres : permet de générer des filtres (qui seront appliqués au niveau du lien entre l’Entité Métier et le dépôt) sur les extractions afin de pouvoir les exploiter de manière partielle dans les blocs de données. Exemple : Les 3 dernières extractions, les extractions des 10 derniers jours…

Action obligatoire : synchronise les entêtes.

Attention Un dépôt peut alimenter n Entités Métier. Le nombre d’Entités Métier pouvant être alimentées par le même dépôt n’est pas limité.

Attention À partir de la liste des Entités Métier, il est possible de réaliser la création d’une Entité Métier. Dans ce cas, la nouvelle Entité Métier sera initialisée avec les entêtes du dépôt.

Explorateur de fichier

L’explorateur est disponible pour les Dépôts liés aux Connecteurs de type HDFS, MiNio, S3 et SFTP.
La fonction permet de visualiser et définir facilement le chemin vers le répertoire contenant les fichiers distants à intégrer.

Pour explorer les fichiers distants, cliquer sur la loupe située sur la ligne "Chemin".

Édition d’un Dépôt

Accès au module GenericsData
Barre de Menu Gauche
Choix du Menu Dépôt
Recherche dans la liste du dépôt

Les listes des éléments de l’offre DataChain possèdent des fonctions de filtre et de recherche sur colonnes. Utiliser ces fonctions pour trouver le dépôt ciblé.
- Clic sur le libellé du dépôt choisi ou sur l’icône en bout de ligne.

Suppression d’un Dépôt

Accès au module GenericsData
Accès à la barre de Menu Gauche
Choix du Menu Dépôts
Recherche dans la liste des dépôts

Les listes des éléments de l’offre DataChain possèdent des fonctions de filtre et de recherche sur colonnes. Utiliser ces fonctions pour trouver le dépôt ciblé.
Option 1 Utiliser le bouton l’icône en bout de ligne et confirmer l’action.
Option 2
- Cliquer sur le libellé du dépôt choisi ou sur l’icône en bout de ligne.
- Une fois la page d’édition du dépôt affichée, cliquer sur le bouton puis confirmer l’action.

Quick Référence

Création d’un Dépôt

Accéder au module GenericData

Étapes	Objectif	Action	Repères
1	Accès à la liste des Dépôts	Cliquer sur icône dépôts
2	Création d’un nouveau dépôt	Cliquer sur l’icône Nouveau
4	Ajout de métadonnées	Saisir des informations	Libellé Obligatoire
5	Choix d’un connecteur	Choisir dans la liste des Connecteurs disponibles ou Utiliser le dépôt local
6	Enregistrer	Cliquer sur bouton Enregistrer
7	Définition des paramètres	Saisie des informations de paramétrage
8	Synchroniser la structure de données avec le dépôt	Cliquer sur le bouton
9	Enregistrer	Cliquer sur bouton Enregistrer

Étapes

Objectif

Action

Repères

Accès à la liste des Dépôts

Cliquer sur icône dépôts

Création d’un nouveau dépôt

Cliquer sur l’icône Nouveau

chart-area

Ajout de métadonnées

Saisir des informations

Libellé Obligatoire

Choix d’un connecteur

Choisir dans la liste des Connecteurs disponibles ou Utiliser le dépôt local

Enregistrer

Cliquer sur bouton Enregistrer

enregistrer-bouton_light

Définition des paramètres

Saisie des informations de paramétrage

Synchroniser la structure de données avec le dépôt

Cliquer sur le bouton

Synchro

Enregistrer

Cliquer sur bouton Enregistrer

enregistrer-bouton_light