Aggregation und Filterung auf Hadoop-Datenimporte anwenden

Wenn Sie Daten aus einem Hadoop Distributed File System (HDFS) importieren, können Sie während des Imports verschiedene Aggregationsfunktionen sowie Filter auf die Daten anwenden. Auf diese Weise können Sie den Umfang der Daten anpassen, die in den Speicher gelangen.

Aggregation anwenden

Das Aggregation Diese Option ist im Dialogfeld "Vorschau" verfügbar.

So wenden Sie eine Aggregationsfunktion auf Ihre Daten an

Klicken Sie auf Aggregation, um das Dialogfeld „Aggregation“ zu öffnen.
Klicken Sie mit der rechten Maustaste auf ein Feld und wählen Sie die gewünschte Funktion im Menü aus.
Klicken Sie auf SQL ausführen, um eine Vorschau der Daten mit angewendeter Aggregation anzuzeigen.

Standardmäßig wird die Aggregationsfunktion für die obersten 100.000 Reihen des gesamten Datensatzes angewendet. Daher wird die genaue Angabe der Funktionen „Summe“, „Maximum“, „Minimum“, „Mittelwert“ und „Zählung“ während der Vorschau beeinflusst (andere Funktionen sind nicht betroffen). Aggregationsergebnisse werden bei der Veröffentlichung des Cubes für den gesamten Datensatz neu berechnet. Der Eigenschaftswert hgos.aggregation.preview.rows kann in /conf/hgos-spark.properties für eine bestimmte Anzahl Zeilen angepasst werden oder für eine unbegrenzte Anzahl Zeilen auf einen Wert von -1 festgelegt werden.
Klicken Sie auf OK, um die neuen Schemadefinitionen mit angewendeter Aggregationsfunktion zu speichern.

Wenn Sie versuchen, nach der Anwendung der Aggregationsfunktion den Datenumbau zu verwenden, werden Ihre Änderungen vom System verworfen.

Filterung

Hadoop Gateway unterstützt ebenfalls die Filterung von Datenimporten. Bei Anwendung von Filtern können Sie anstelle des gesamten Datensatzes begrenzte Daten importieren, die einer bestimmten Bedingung entsprechen.

Die Option Filter ist Kontextmenü verfügbar, ebenso wie oben im Dialogfeld „Aggregation“.