MicroStrategy ONE

应用聚合和筛选到Hadoop数据导入

在从 Hadoop Distributed File System (HDFS) 导入数据时,可在导入期间向数据应用不同的聚合函数以及筛选器。这可让您自定义正在引入内存的数据量。

应用聚合

聚合 选项在预览对话框中可用。

将聚合函数应用至您的数据:

  1. 单击聚合以打开“聚合”对话框。
  2. 在字段上右键单击并从菜单选择所需的函数。
  3. 单击执行 SQL 来通过应用的聚合预览数据。

    默认设置下聚合/函数对整个数据集的前 100,000 行执行。因此,Sum、Max、Min、Average 和 Count 函数的精度在预览期间会受到影响(其他函数不受影响)。在发布立方体时,将对整个数据集重新计算聚合结果。可为无限行数调节 /conf/hgos-spark.properties 中的 hgos.aggregation.preview.rows 属性值为特定行数,或设置为值 -1。

  4. 在应用聚合/函数之后,单击确定来保存新的方案定义。

    如果您尝试在应用聚合或函数之后整理数据,系统会废弃您的更改。

筛选

Hadoop Gateway 还支持筛选数据导入。筛选可让您导入受限的数据,这些数据匹配特定条件,而不是导入整个数据集。

在上下文菜单中以及“聚合”对话框的顶部,有筛选器选项可用。