Azure Data Lake Storage Gen2

Azure Data Lake Storage Gen2 (ADLS2) est une plateforme de lac de données entièrement intégrée à Azure Blob Stockage. Le connecteur d'objets MicroStrategy Cloud fournit un accès à ADLS2 pour parcourir rapidement les dossiers et fichiers et les importer dans les Cubes MicroStrategy .

Découvrez les sujets suivants sur cette page :

Préparer les paramètres de connexion
Créer un rôle de base de données
Importer des données
Limitations

Préparer les paramètres de connexion

Pour que le connecteur Cloud Object puisse parcourir avec succès le système de fichiers ADLS2, vous avez besoin d'un compte de stockage avec un espace de nom hiérarchique. Pour plus de détails sur la création d'un compte de stockage, veuillez consulter la Documentation Microsoft.

Une fois le compte de stockage créé, deux clés d'accès sont accordées. L'une ou l'autre peut être utilisée pour créer une connexion.

Créer un rôle de base de données

Accédez au connecteur d'objet Cloud Azure Data Lake Storage Gen2 dans MicroStrategy Web ou Workstation.

Web
Workstation

Choisissez Ajouter des données > Nouvelles données.
Rechercher et sélectionner Azure Data Lake Storage Gen2 Connecteur Cloud Object à partir de la liste de sources de données.
À côté de Sources de données, cliquez sur Nouvelle source de données pour ajouter une nouvelle connexion.
Saisissez vos informations d'identification de connexion.
- Nom de connexion: Un nom pour la nouvelle connexion
- Conteneur: Le conteneur auquel vous souhaitez accéder
- Authentification: La méthode d'authentification que vous souhaitez utiliser
- ID du répertoire (locataire): L'ID associé à chaque souscription
- Compte Stockage Azure: Le compte de stockage contenant vos objets de données Stockage Azure
- Secret Stockage Azure: Le secret associé au Stockage Azure

Dans le panneau gauche, à côté de Jeux de données, cliquez sur Créer un jeu de données .
Rechercher et sélectionner Azure Data Lake Storage Gen2 Connecteur Cloud Object à partir de la liste de sources de données.
À côté de Sources de données, cliquez sur Nouvelle source de données pour ajouter une nouvelle connexion.
Saisissez vos informations d'identification de connexion.
- Nom de connexion: Un nom pour la nouvelle connexion
- ID du répertoire (locataire): L'ID associé à chaque souscription
- Compte Stockage Azure: Le compte de stockage
- Conteneur: Le conteneur auquel vous souhaitez accéder
- ID client: L'ID client utilisé
- Secret client: Le secret client associé à l'ID client

Importer des données

Une fois que vous avez créé le connecteur, vous pouvez importer des données dans MicroStrategy.

Sélectionnez la connexion récemment créée.
Parcourir les dossiers ou fichiers sous le conteneur spécifique,
Double-cliquez sur les fichiers ou faites-les glisser dans le volet droit.

Dans le volet Aperçu, vous pouvez voir les échantillons de données et ajuster le type de colonne.
Publiez le Cube sur MicroStrategy avec les données sélectionnées.

Limitations

Types de fichiers pris en charge

Seuls les types de fichiers suivants sont pris en charge :

.json
.parquet
.avro
.orc
.csv
Format Delta

Sélectionner les dossiers

Lors de la sélection du dossier entier, le dossier doit répondre aux exigences suivantes :

Tous les fichiers dans ce dossier doivent avoir les mêmes types de fichiers. Une boîte de dialogue vous invite à choisir le type de fichier
Tous les fichiers partagent le même schéma
Si le dossier comporte des sous-réseaux, ces derniers doivent être dans un format de partition valide. Voici un exemple de structure de dossier valide

Limitations de Spark

Seuls les fichiers JSON avec chaque nouvelle ligne comme JSON complet peuvent être lus
Impossible de lire les fichiers Parquet qui contiennent des caractères spéciaux (, ; { } \ = " .)
Les fichiers Parquet avec les types de données de colonne INT32(UINT_8)/(UNIT_16)/(UNIT_32)/(TIME_MILLIS) ne sont pas pris en charge
Les colonnes avec le type binaire ne peuvent pas être publiées dans le Cube
Les fichiers ORC avec des noms de champs avec le préfixe « _col » (par exemple, _col0, _col1), où le schéma de fichier contient au moins une structure imbriquée, un tableau ou un champ de carte, ne peuvent pas être importés

Fonctionnalités

Les fonctionnalités suivantes ne sont pas prises en charge :

Chargement des fichiers MicroStrategy en se connectant au connecteur Cloud Object
Gestion des données dans l'importation des données
Définition de la géographie dans l'importation des données
Planification avancée pour la publication du Cube de planification
Regrouper les tables dans l'importation des données