集計とフィルタリングを Hadoop データインポートに適用する

Hadoop Distributed File System (HDFS) からデータをインポートする際には、異なる集計関数やフィルターを、インポート時にデータへ適用できます。これにより、メモリに取り込まれるデータ量をカスタマイズすることができます。

集計の適用

[集計] オプションは、[プレビュー] ダイアログで利用できます。

集計関数をデータに適用するには:

[集計] をクリックして [集計] ダイアログボックスを開きます。
フィールドを右クリックして、メニューから目的の関数を選択します。
[SQL を実行] をクリックし、集計を適用してデータをプレビューします。

デフォルトでは、集計/関数はデータセット全体の上位 100,000 行で実行されます。そのため、プレビューでは Sum、Max、Min、Average、Count の関数の精度に影響があります (他の関数に影響はありません)。集計結果は、キューブを公開する際に、データセット全体に対して再計算されます。/conf/hgos-spark.properties の hgos.aggregation.preview.rows プロパティ値を調節して、特定の行数に調節するか、行数を無制限にする場合は値を -1 に設定します。
[OK] をクリックして、集計/関数が適用された新しいスキーマを保存します。

集計または関数を適用した後にデータのラングリングを試みると、変更内容がシステムによって破棄されます。

Hadoop Gateway は、データインポートのフィルタリングもサポートします。フィルターを使用すると、インポートするデータを、データセット全体ではなく、特定の条件と一致するデータに限定できます。

[フィルター] オプションは、コンテキストメニュー、および [集計] ダイアログボックスの一番上にあります。