Hadoop 데이터 가져 오기에 집계 및 필터링 적용

HDFS(Hadoop 분산 파일 시스템)에서 데이터를 가져올 때 가져오기 중에 다른 집계 함수와 필터를 데이터에 적용할 수 있습니다. 이를 통해 메모리로 가져오는 데이터의 양을 사용자정의 할 수 있습니다.

집계 적용

그 집계 옵션을 미리보기 대화 상자에서 사용할 수 있습니다.

데이터에 집계 함수를 적용하려면:

집계를 클릭하여 집계 대화 상자를 엽니다.
필드를 마우스 오른쪽 버튼으로 클릭하고 메뉴에서 원하는 함수를 선택합니다.
SQL 실행을 클릭하여 집계가 적용된 데이터를 미리 봅니다.

기본적으로 집계/함수는 전체 데이터세트의 상위 100,000개 행에 대해 실행됩니다. 따라서 미리보기 중에 Sum, Max, Min, Average 및 Count 함수의 정밀도가 영향을 받습니다(다른 함수는 영향을 받지 않음). 집계 결과는 큐브를 게시하는 동안 전체 데이터세트에 대해 다시 계산됩니다. /Conf/hgos-spark.properties의 hgos.aggregation.preview.rows 속성 값을 특정 행 수로 조정하거나 무제한 행 수의 경우 -1 값을 설정할 수 있습니다.
확인을 클릭하여 집계/함수가 적용된 새 스키마 정의를 저장합니다.

집계 또는 함수가 적용된 후 데이터 랭글링을 시도할 경우 시스템은 변경 사항을 무시합니다.

Hadoop Gateway는 또한 데이터 가져오기 필터링을 지원합니다. 필터링을 사용하면 전체 데이터세트 대신 특정 조건과 일치하는 제한된 데이터를 가져올 수 있습니다.

필터 옵션은 컨텍스트 메뉴 및 집계 대화 상자의 상단에서 사용할 수 있습니다.