应用聚合和筛选到Hadoop数据导入

在从 Hadoop Distributed File System (HDFS) 导入数据时，可在导入期间向数据应用不同的聚合函数以及筛选器。这可让您自定义正在引入内存的数据量。

应用聚合

聚合选项在预览对话框中可用。

将聚合函数应用至您的数据：

单击聚合以打开“聚合”对话框。
在字段上右键单击并从菜单选择所需的函数。
单击执行 SQL 来通过应用的聚合预览数据。

默认设置下聚合/函数对整个数据集的前 100,000 行执行。因此，Sum、Max、Min、Average 和 Count 函数的精度在预览期间会受到影响（其他函数不受影响）。在发布立方体时，将对整个数据集重新计算聚合结果。可为无限行数调节 /conf/hgos-spark.properties 中的 hgos.aggregation.preview.rows 属性值为特定行数，或设置为值 -1。
在应用聚合/函数之后，单击确定来保存新的方案定义。

如果您尝试在应用聚合或函数之后整理数据，系统会废弃您的更改。

Hadoop Gateway 还支持筛选数据导入。筛选可让您导入受限的数据，这些数据匹配特定条件，而不是导入整个数据集。

在上下文菜单中以及“聚合”对话框的顶部，有筛选器选项可用。