MicroStrategy ONE

集計とフィルタリングを Hadoop データ インポートに適用する

Hadoop Distributed File System (HDFS) からデータをインポートする際には、異なる集計関数やフィルターを、インポート時にデータへ適用できます。これにより、メモリに取り込まれるデータ量をカスタマイズすることができます。

集計の適用

[集計] オプションは、[プレビュー] ダイアログで利用できます。

集計関数をデータに適用するには:

  1. [集計] をクリックして [集計] ダイアログ ボックスを開きます。
  2. フィールドを右クリックして、メニューから目的の関数を選択します。
  3. [SQL を実行] をクリックし、集計を適用してデータをプレビューします。

    デフォルトでは、集計/関数はデータセット全体の上位 100,000 行で実行されます。そのため、プレビューでは Sum、Max、Min、Average、Count の関数の精度に影響があります (他の関数に影響はありません)。集計結果は、キューブを公開する際に、データセット全体に対して再計算されます。/conf/hgos-spark.propertieshgos.aggregation.preview.rows プロパティ値を調節して、特定の行数に調節するか、行数を無制限にする場合は値を -1 に設定します。

  4. [OK] をクリックして、集計/関数が適用された新しいスキーマを保存します。

    集計または関数を適用した後にデータのラングリングを試みると、変更内容がシステムによって破棄されます。

フィルター

Hadoop Gateway は、データ インポートのフィルタリングもサポートします。フィルターを使用すると、インポートするデータを、データセット全体ではなく、特定の条件と一致するデータに限定できます。

[フィルター] オプションは、コンテキスト メニュー、および [集計] ダイアログ ボックスの一番上にあります。