Appliquer l'agrégation et le filtrage aux importations de données Hadoop

Lors de l’importation de données d’un système de fichiers distribués Hadoop (HDFS), vous pouvez appliquer différentes fonctions d’agrégation, ainsi que des filtres, aux données lors de l’importation. Ceci vous permet de personnaliser la quantité de données emportées en mémoire.

Appliquer l'agrégation

Le Agrégation Cette option est disponible dans la boîte de dialogue Aperçu.

Pour appliquer une fonction d’agrégation à vos données :

Cliquez sur Agrégation pour ouvrir la boîte de dialogue Agrégation.
Cliquez avec le bouton droit sur un champ et sélectionnez la fonction souhaitée dans le menu.
Cliquez sur Exécuter SQL pour afficher un aperçu de vos données avec l’agrégation appliquée.

Par défaut, l’agrégation/la fonction sera exécutée contre les 100 000 premières lignes du jeu de données complet. Par conséquent, la précision des fonctions Somme, Max, Min, Moyenne et Compte est impactée pendant l’aperçu (les autres fonctions ne sont pas affectées). Les résultats de l’agrégation sont recalculés contre le jeu de données complet pendant la publication du cube. La valeur de la propriété hgos.aggregation.preview.rows dans /conf/hgos-spark.properties peut être ajustée au nombre spécifique de lignes ou définie sur une valeur de -1 pour un nombre illimité de lignes.
Cliquez sur OK pour enregistrer les nouvelles définitions de schéma avec l’agrégation/la fonction appliquée.

Si vous tentez d’arranger les données une fois que l’agrégation/les fonctions a(ont) été appliquée(s), le système ignore ces modifications.

Filtrage

Hadoop Gateway prend également en charge le filtrage d’importations de données. Le filtrage vous permet d’importer des données limitées qui correspondent à une certaine condition au lieu de l’ensemble d’un jeu de données.

L’option Filtre est disponible dans le menu contextuel et en haut de la boîte de dialogue Agrégation.