Dépôts

boxes.svg.svg

Généralités - Dépôt

La fonction Dépôt de DataChain est accessible depuis le module GenericsData.Logo GenericsData

Le nombre de dépôts pouvant être créés n’est pas limité.

Un dépôt permet de définir une façon de lire des données depuis un connecteur (Local, BDD, ou autre).
Chaque connecteur doit être lié au moins à un dépôt.
Dans le cas de l’intégration rapide, seul le dépôt est créé, vous ne trouverez aucun connecteur "Local".

Le dépôt représente le Niveau 2 de la chaîne de valeurs DataChain.

Chaîne de valeurs

Cette fonction est indispensable à la consommation de données dans DataChain.

Le dépôt est toujours associé à un connecteur plug.

Le connecteur définit le mode de lecture des données.

En fonction du connecteur, les types de lecteur peuvent être variés.

Un dépôt alimente une ou plusieurs Entités Métier credit-card-front.

Création d’un Dépôt

Liste des Dépôts existants

La création d’un dépôt est réalisée depuis le module GenericsData.Logo GenericsData.

  • Accéder au module GenericsData.Logo GenericsData

  • Choisir, dans le menu gauche GenericsData, l’option Dépôts associée à l’icône. boxes.svg.svg

Liste Depots

Les métadonnées

  • Clic sur le bouton. ajouter_time-line.

  • Chaque Dépôt possède un panneau des métadonnées. La saisie d’un libellé est obligatoire.

    Des zones de saisie optionnelles permettent d’apporter des informations complémentaires. Une icône peut ainsi être affectée au dépôt via les commandes présentes dans son panneau des métadonnées.

information Il est conseillé d’enregistrer ce panneau dès la saisie effectuée. Utiliser le bouton Bouton enregistrer situé dans la partie droite du bandeau haut de l’écran.

Choix d’un connecteur

Deux grands types de connecteur sont disponibles dans DataChain.

Connecteur Local (ou mode sans connecteur)

DataChain embarque un connecteur dans son déploiement de base. Il permet d’intégrer des données sans avoir besoin de créer un connecteur.

Attention Noter que dans le cas de l’utilisation d’un connecteur local, les données seront physiquement stockées dans le contexte DataChain.

Pour utiliser le connecteur local, cliquer sur l’option sans connecteur 1.

Connecteur Externe

Pour utiliser, le mode dépôt externe, cliquer sur le bouton option de.

L’option mode de dépôt externe oblige à préciser un connecteur déjà existant dans DataChain. Pour choisir un connecteur plug, utiliser la zone de choix trois.

La liste propose tous les connecteurs autorisés.

Attention Noter que dans le cas d’utilisation d’un connecteur externe, les données seront physiquement à l'extérieur du contexte DataChain.

Pour rappel, voici les types de connecteurs présents de base dans DataChain :

  • Local : sans paramétrage, natif et non accessible depuis la gestion des connecteurs.

  • SFTP

  • HTTP

  • HTTPS

  • S3 (AWS)

  • Base de Données Sql et NoSql

  • HDFS

  • ElasticSearch

  • …​

information En fonction du connecteur choisi, les paramétrages du dépôt peuvent varier.

Types de dépôt - Paramétrage

Connecteurs : Connecteur Local
Fichier avec séparateur
  • Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.

  • Séparateur : Indique le caractère qui est utilisé comme caractère de séparation.

  • Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Cette valeur peut-être modifiée.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Modes de lecture : 3 modes possibles

    • PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.

    • DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.

    • FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.

  • Entête : Indique si la première ligne contient les entêtes des colonnes.

  • Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.

Fichier Parquet
  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Fichier Json
  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.

  • Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json

  • Json Path : Détermine le niveau pour la détection des entêtes

  • Explode(s) : Indiquer si une (ou des opérations) d'explode doit être réalisée au niveau du JsonPath (1 par défaut)

Fichier Xml
  • Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.

  • Modes de lecture : 3 modes possibles

    • PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.

    • DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.

    • FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.

  • Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.

  • Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.

  • Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Excel
  • Adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.

  • Mot de passe du Classeur : Si le fichier Excel est protégé par Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Attention Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.

Binaire
  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Connecteurs : SFTP, HDFS et S3
Fichier avec séparateur
  • Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.

  • Séparateur : Indique le caractère qui est utilisé comme caractère de séparation.

  • Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Modes de lecture : 3 modes possibles

    • PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.

    • DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.

    • FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.

  • Entête : Indique si la première ligne contient les entêtes des colonnes.

  • Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.

  • Chemin : Indique l’emplacement des fichiers à traiter.

Fichier Parquet
  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Chemin : Indique l’emplacement des fichiers à traiter.

Fichier Json
  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Encodage : Permet d’indiquer le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté, par défaut.

  • Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json

  • Chemin : Indique l’emplacement des fichiers à traiter.

  • Json Path : Indique le niveau pour la détection des entêtes

  • Explode(s) : Indique si une ou des opérations d'explode doivent être réalisées au niveau du JsonPath (1 par défaut)

Fichier Xml
  • Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.

  • Modes de lecture : 3 modes possibles

    • PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.

    • DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.

    • FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.

  • Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.

  • Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.

  • Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Chemin : Indique l’emplacement des fichiers à traiter.

Excel
  • L’adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.

  • Mot de passe du Classeur : Si le fichier Excel est protégé par Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

Attention Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.

  • Chemin : Indique l’emplacement des fichiers à traiter.

Binaire
  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondants au masque de lecture seront pris en compte.

  • Chemin : Permet de définir l’emplacement des fichiers à traiter.

Connecteurs : Http / Https / REST
Fichier avec séparateur
  • Identificateur de texte : Indique le caractère qui est utilisé comme caractère d’échappement.

  • Séparateur : Permet de définir le caractère qui est utilisé comme caractère de séparation.

  • Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté par défaut.

  • Modes de lecture : 3 modes possibles

    • PERMISSIVE : Tente d’analyser toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.

    • DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.

    • FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.

  • Entête : Indique si la première ligne contient les entêtes des colonnes.

  • Multilignes : Option permettant de gérer le cas des fichiers contenant dans une colonne des retours à la ligne.

  • Méthode : Méthode à appliquer GET ou POST.

  • URI : Précise l’URL qui sera consommée par le connecteur Http / Https. Utiliser la loupe située en bout de ligne pour réaliser une saisie plus structurée de l’URI à l’aide d’une fonction de Parseur d’URI.

  • Header : Permet de générer des couples clé-valeur pour le header

  • Body : Pour la méthode POST permet de préciser le Body

Fichier Parquet
  • Méthode : Méthode à appliquer GET ou POST

  • URI : Indique l’URL qui sera consommée par le connecteur Http / Https

  • Header : Permet de générer des couples clé-valeur pour le header

  • Body : Pour la méthode POST permet de préciser le Body

Fichier Json
  • Encodage : Indique le format de caractères informatiques utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est automatiquement détecté par défaut

  • Méthode : Méthode à appliquer GET ou POST

  • URI : Indique l’URL qui sera consommée par le connecteur Http / Https

  • Header : Permet de générer des couples clé-valeur pour le header

  • Body : Pour la méthode POST permet de préciser le Body

  • Multilignes : Indique si le fichier Json contient n string Json (MultiLigne à OUI) ou si le fichier ne contient qu’une seule structure Json

  • Json Path : Indique le niveau pour la détection des entêtes

  • Explode(s) : Indique si une ou des opérations d'explode doivent être réalisées au niveau du JsonPath (1 par défaut)

Fichier Xml
  • Tag de nouvelle ligne : La balise de ligne de vos fichiers xml à traiter comme une ligne.

  • Modes de lecture : 3 modes possibles

    • PERMISSIVE : Analyse toutes les lignes : les valeurs NULL sont insérées à la place des valeurs manquantes et les valeurs supplémentaires sont ignorées.

    • DROPMALFORMED : Supprime les lignes contenant moins de valeurs ou plus que prévu ou les valeurs ne correspondant pas au schéma.

    • FAILFAST : Abandonne avec une exception RuntimeException si une ligne mal formée est rencontrée.

  • Encodage : Indique le format de caractères informatiques (encodage) utilisé par le fichier à traiter afin de prendre en compte les caractères spéciaux. Il est positionné par défaut en UTF-8. Il est possible de changer cette valeur.

  • Ignorer les espaces situés avant ou après les données : Indique si les espaces blancs autour des valeurs lues doivent être ignorés. La valeur par défaut est Non.

  • Considérer les valeurs vides comme des valeurs nulles : Indique si le caractère espace doit être traité comme une valeur nulle. La valeur par défaut est Non.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Méthode : Méthode à appliquer GET ou POST.

  • URI : Indique l’URL qui sera consommée par le connecteur Http / Https.

  • Header : Permet de générer des couples clé-valeur pour le header.

  • Body : Pour la méthode POST permet de préciser le Body.

Excel
  • L’adresse des données : Indique le classeur et la zone dans le fichier Excel qui doit être lue. Exemple My Sheet!A1:K225.

  • Mot de passe du Classeur : Si le fichier Excel est protégé par un Mot de Passe, il est obligatoire de le préciser dans cette zone de saisie.

  • Masque de lecture : Indique le masque de lecture des fichiers. Seuls les fichiers correspondant au masque de lecture seront pris en compte.

  • Méthode : Méthode à appliquer GET ou POST

  • URI : Indique l’URL qui sera consommée par le connecteur Http / Https.

  • Header : Permet de générer des couples clé-valeur pour le header.

  • Body : Pour la méthode POST permet de préciser le Body.

Attention Attention les entêtes des colonnes de type Numérique (pouvant être issus de formules dans excel) ne sont pas acceptés et génèrent une erreur à l’intégration.

Paramètres avancés Dépôt sur connecteur Http/Https (GET et POST)

Paramètre HTTP(S)

  • 1 Paramètres Généraux (certains paramètres dépendent du type de retour attendu (CSV, JSON, etc …​))

  • 2 Permet d’ajouter des couples clé-valeur dans l’entête de la requête

  • 3 Gestion des itérations

Itérations par Offset

Paramètre HTTP(S)

  • 1 Variable ajoutée automatiquement à l’URI

  • 2 Délai d’attente entre chaque itération

  • 3 Ligne de début de lecture

  • 4 Nombre de ligne(s) lu(es) à chaque itération

  • 5 Nombre d’itération(s)

  • 6 Contenu dans le corps renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)

  • 7 Contenu dans l’entête renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)

Itérations par Page

Paramètre HTTP(S)

  • 1 Variable ajoutée automatiquement à l’URI

  • 2 Délai d’attente entre chaque itération

  • 3 Page de début de lecture

  • 4 Page de fin de lecture

  • 5 Nombre d’itération(s)

  • 6 Contenu dans le corps renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)

  • 7 Contenu dans l’entête renvoyé par le tiers pour la fin de lecture (avec ou sans REGEX)

Paramètre exemple POST

Exemple de paramétrage avec la méthode POST : 4 itérations maximum avec un skip de 50.

Connecteurs : Base de Données type NoSql
MongoDB
  • Collection : Préciser dans cette zone de saisie la collection MongoDb

NEO4J
  • Requête Cypher : Préciser dans cette zone la requête à réaliser. Cliquer sur "Aperçu" pour afficher les données du résultat de la requête.

Connecteurs : Base de Données Sql
  • Script : Permet de définir le script Sql qui sera utilisé lors de la récupération des données.

Enregistrement du paramétrage

  • Une fois les paramétrages effectués, cliquer sur le bouton enregistrer-bouton_light.

Attention Suite à l’enregistrement et afin de déduire les entêtes disponibles dans le fichier lu, il est obligatoire de réaliser l’action de Synchronisation des entêtes. Cliquer sur le bouton Synchro situé dans la zone 9 afin de réaliser cette opération.

Attention La synchronisation des entêtes doit être réalisée suite à la création du dépôt.

Fonctions disponibles pour la gestion des dépôts

Description de l’écran des fonctions dans un dépôt

1 Zone de définition du connecteur et du lecteur.

2 Zone de définition des paramètres du lecteur. Ces paramètres varient en fonction du connecteur et du lecteur utilisés.

3 Onglet Entités Métier liées : liste l’ensemble des Entités Métier qui consomment le dépôt.

4 Zone contenant les fonctions disponibles pour un dépôt.

5 Onglet Entêtes : contient les entêtes référence des fichiers.

6 Onglet Fichiers Distants : permet de visualiser le ou les fichiers présents dans le dépôt.

Actions sur fichiers distants :
  • Visualiser : Cliquer sur l’icône "Loupe" située en bout de la ligne

  • Télécharger : Cliquer sur l’icône "Télécharger" située en bout de la ligne

7 Onglet Extractions : permet de réaliser des extractions horodatées des valeurs sources. Le nombre d’extractions n’est pas limité.

Attention Noter que les extractions réalisées peuvent être consommées par les blocs de données.

Attention La fonction Extractions peut être utilisée comme fonction d’historisation.

8 Onglet Filtres : permet de générer des filtres (qui seront appliqués au niveau du lien entre l’Entité Métier et le dépôt) sur les extractions afin de pouvoir les exploiter de manière partielle dans les blocs de données. Exemple : Les 3 dernières extractions, les extractions des 10 derniers jours…​

9 Action obligatoire : synchronise les entêtes.

Attention Un dépôt peut alimenter n Entités Métier. Le nombre d’Entités Métier pouvant être alimentées par le même dépôt n’est pas limité.

Attention À partir de la liste des Entités Métier, il est possible de réaliser la création d’une Entité Métier. Dans ce cas, la nouvelle Entité Métier sera initialisée avec les entêtes du dépôt.

Explorateur de fichier

L’explorateur est disponible pour les Dépôts liés aux Connecteurs de type HDFS, MiNio, S3 et SFTP.
La fonction permet de visualiser et définir facilement le chemin vers le répertoire contenant les fichiers distants à intégrer.

Pour explorer les fichiers distants, cliquer sur la loupe située sur la ligne "Chemin". Explorer

Édition d’un Dépôt

  • Accès au module GenericsData Logo GenericsData

  • Barre de Menu Gauche

  • Choix du Menu Dépôt connecteur-flat.svg

  • Recherche dans la liste du dépôt

    Les listes des éléments de l’offre DataChain possèdent des fonctions de filtre et de recherche sur colonnes. Utiliser ces fonctions pour trouver le dépôt ciblé.

    • Clic sur le libellé du dépôt choisi ou sur l’icône edit en bout de ligne.

Suppression d’un Dépôt

  • Accès au module GenericsData Logo GenericsData

  • Accès à la barre de Menu Gauche

  • Choix du Menu Dépôts boxes.svg

  • Recherche dans la liste des dépôts

    Les listes des éléments de l’offre DataChain possèdent des fonctions de filtre et de recherche sur colonnes. Utiliser ces fonctions pour trouver le dépôt ciblé.

  • Option 1 Utiliser le bouton l’icône suppression en bout de ligne et confirmer l’action.

  • Option 2

    • Cliquer sur le libellé du dépôt choisi ou sur l’icône edit en bout de ligne.

    • Une fois la page d’édition du dépôt affichée, cliquer sur le bouton Supprimer puis confirmer l’action.

Quick Référence

Création d’un Dépôt

Accéder au module GenericData Logo GenericsData

Étapes Objectif Action Repères

1

Accès à la liste des Dépôts

Cliquer sur icône dépôts

boxes.svg.svg

2

Création d’un nouveau dépôt

Cliquer sur l’icône Nouveau

chart-area

4

Ajout de métadonnées

Saisir des informations

Libellé Obligatoire

5

Choix d’un connecteur

Choisir dans la liste des Connecteurs disponibles ou Utiliser le dépôt local

6

Enregistrer

Cliquer sur bouton Enregistrer

enregistrer-bouton_light

7

Définition des paramètres

Saisie des informations de paramétrage

8

Synchroniser la structure de données avec le dépôt

Cliquer sur le bouton

Synchro

9

Enregistrer

Cliquer sur bouton Enregistrer

enregistrer-bouton_light