MicroStrategy ONE
集計とフィルタリングを Hadoop データ インポートに適用する
Hadoop Distributed File System (HDFS) からデータをインポートする際には、異なる集計関数やフィルターを、インポート時にデータへ適用できます。これにより、メモリに取り込まれるデータ量をカスタマイズすることができます。
集計の適用
[集計] オプションは、[プレビュー] ダイアログで利用できます。
集計関数をデータに適用するには:
- [集計] をクリックして [集計] ダイアログ ボックスを開きます。
- フィールドを右クリックして、メニューから目的の関数を選択します。
-
[SQL を実行] をクリックし、集計を適用してデータをプレビューします。
デフォルトでは、集計/関数はデータセット全体の上位 100,000 行で実行されます。そのため、プレビューでは Sum、Max、Min、Average、Count の関数の精度に影響があります (他の関数に影響はありません)。集計結果は、キューブを公開する際に、データセット全体に対して再計算されます。
/conf/hgos-spark.properties
のhgos.aggregation.preview.rows
プロパティ値を調節して、特定の行数に調節するか、行数を無制限にする場合は値を -1 に設定します。 -
[OK] をクリックして、集計/関数が適用された新しいスキーマを保存します。
集計または関数を適用した後にデータのラングリングを試みると、変更内容がシステムによって破棄されます。
フィルター
Hadoop Gateway は、データ インポートのフィルタリングもサポートします。フィルターを使用すると、インポートするデータを、データセット全体ではなく、特定の条件と一致するデータに限定できます。
[フィルター] オプションは、コンテキスト メニュー、および [集計] ダイアログ ボックスの一番上にあります。