Version 2021

가져오기 전에 데이터 품질을 구체화하는 방법

데이터를 가져오기 전에 데이터 랭글링을 사용하여 데이터의 품질과 유용성을 향상시킵니다. 공백 제거, 필터링, 중복 행/셀 삭제, 데이터 찾기/바꾸기, 열 연결 작업 등을 수행할 수 있습니다. 또한 데이터 랭글링을 데이터 검색 도구로 사용하거나 데이터 랭글링을 사용하여 일부 기존 ETL(추출, 변형 및 로딩) 방식을 건너뛸 수 있습니다.

데이터 랭글링 대화 상자에서 샘플 데이터(즉, 실제 데이터의 하위 집합)를 사용하여 데이터를 정리, 변환 및 준비하는 함수 스크립트를 작성합니다.

데이터를 다시 게시하거나 새로 고치면 데이터 랭글링 단계가 새 데이터에 적용됩니다.

  1. 빈 문서를 만들거나 기존 문서를 엽니다.
  2. Add Data(데이터 추가) > New Data(새 데이터)를 선택하여 데이터를 새 데이터 세트에 가져옵니다.

    또는

    딸깍 하는 소리 데이터 세트 이름 옆에 있는 데이터 세트 패널에서 Edit Dataset(데이터 세트 편집)을 선택하여 데이터 세트에 데이터를 추가합니다. 미리보기 대화 상자가 열립니다. Add a new table(새 테이블 추가)를 클릭합니다.

    데이터 소스 대화 상자가 열립니다.

  1. 데이터 소스 유형에 따라 가져올 데이터를 선택합니다.
  2. 가져올 데이터를 선택했으면 데이터 준비를 클릭하여 미리보기 대화 상자를 엽니다.
  1. 위쪽 창에서 수정하려는 테이블의 드롭다운 화살표를 클릭하고 랭글을 선택합니다. 데이터 랭글링 대화 상자가 열리고 데이터세트 샘플이 표시됩니다.
  2. 열 선택 드롭다운 목록에서 수정할 열을 선택합니다.

    또는

    미리보기에서 수정할 열을 선택합니다.

  3. 제안 목록 또는 함수 선택 드롭다운 목록에서 적용할 함수를 선택합니다. 자세한 내용은 데이터 랭글링에 대한 함수를 참조하십시오.

    함수에 추가 입력이 필요 없는 경우 자동으로 데이터에 적용됩니다.

    함수에 매개 변수가 필요한 경우 매개 변수를 정의하고 적용을 클릭합니다.

    열에 대한 날짜 데이터 유형을 변경할 수 있습니다. 열 선택 드롭다운 목록에서 변경할 열을 선택합니다. 함수 선택 드롭다운 목록의 셀 변환 선택에서 데이터 유형 변경을 선택합니다. 다음 드롭다운 목록에서 날짜를 선택하고 다음 필드에 날짜 포맷을 입력한 다음 적용을 클릭합니다. 자세한 내용은 데이터를 랭글링할 때 날짜 및 시간 데이터 유형을 정의하는 방법을 참조하십시오.

  4. 함수 선택 드롭다운 목록에서 선택기 옵션을 사용하여 열 데이터를 필터링할 수 있습니다. 이러한 옵션은 화면 아래쪽에 열을 필터링하는 데 조정할 수 있는 다음 필터를 표시합니다.

    텍스트 선택기: 텍스트 위에 커서를 놓고 가져오기에서 이를 포함 또는 제외할지 선택합니다.

    숫자 선택기: 숫자 값 범위가 있는 그래프를 표시합니다. 범위의 시작 및 끝 포인트를 이동하여 값을 필터링합니다. 또한 숫자, 비-숫자, 공백오류에 대한 확인란을 사용하여 숫자 값을 추가로 필터링합니다.

    타임라인 선택기: 날짜 범위가 있는 그래프를 표시합니다. 범위의 시작 및 끝 포인트를 이동하여 날짜를 필터링합니다. 또한 시간, 비-시간, 공백오류에 대한 확인란을 사용하여 날짜를 추가로 필터링합니다.

    텍스트 검색: 데이터를 필터링할 텍스트를 입력합니다. 대/소문자를 구분하여 검색하려면 대/소문자 구별을 선택합니다. Regex(정규 표현식) 언어를 사용하려면 정규 표현식을 선택합니다.

    선택기 옵션을 사용할 때 데이터가 삭제되는 것은 아닙니다. 대신 데이터가 미리보기에서 숨겨집니다.

  5. 각 필터와 연결된 드롭다운 화살표를 선택하여 필터링된 데이터에 함수를 적용할 수 있습니다.

    재설정: 특정 필터를 실행 취소합니다.

    모든 선택기 재설정: 모든 필터를 실행 취소합니다.

    삭제: 특정 필터를 삭제합니다.

    모든 선택기 삭제: 모든 필터를 삭제합니다.

  6. 유사한 열 데이터를 클러스터로 그룹화하고 값을 바꾸려면 수정하려는 열을 선택하고 함수 선택 드롭다운 목록의 기타 섹션에서 클러스터 및 편집을 선택합니다. 열 데이터가 관련 데이터의 클러스터로 그룹화된 상태로 클러스터 및 편집 대화 상자가 열립니다. 자세한 내용은 데이터를 클러스터링하는 방법을 참조하십시오.
  7. 개별 셀을 더블 클릭하여 셀에서 직접 데이터를 편집합니다.
  8. 변경 사항을 팝업 대화 상자에 입력합니다.
  9. 선택한 셀을 변경하려면 적용 을 클릭합니다.
  10. 선택한 셀의 데이터와 일치하는 모든 셀을 변경하려면 Apply to All(모두 적용)을 클릭합니다.
  11. 이전 함수를 실행 취소하려면 사용 내역 스크립트 영역에서 Undo(실행 취소)를 클릭합니다.
  12. 이전 함수를 재실행하려면 Redo(재실행)를 클릭합니다.
  13. 여러 함수를 실행 취소하려면 유지할 이전 함수를 클릭합니다. 선택한 함수 이후의 모든 함수가 실행 취소됩니다. 함수 실행이 취소되면 함수가 회색으로 표시됩니다.
  14. 여러 함수를 재실행하려면 재실행하려는 회색으로 표시된 최신 함수를 클릭합니다. 선택한 함수와 그 앞에 있는 함수가 다시 적용됩니다.
  15. 스크립트의 모든 작업을 실행 취소하려면 Reset(재설정)을 클릭합니다. 데이터가 원래 상태로 돌아갑니다. 사용자가 다른 함수를 선택하여 새로운 스크립트가 시작되기 전까지는 사용내역 스크립트는 삭제되지 않습니다.
  16. 저장을 클릭합니다. 사용내역 스크립트 추출 대화 상자가 열리고 전체 스크립트가 표시됩니다.
  17. 나중에 다른 데이터세트로 재사용할 수 있도록 스크립트 및 해당 함수를 저장하려면 저장을 클릭합니다.
  18. 스크립트를 저장하지 않고 데이터 랭글링 대화 상자로 돌아가려면 닫기를 클릭합니다.
  19. Import(가져오기) 를 클릭합니다. 사용내역 스크립트 가져오기 대화 상자가 열립니다.
  20. 저장된 스크립트를 가져오려면 찾아보기를 클릭합니다.

    또는

    스크립트를 텍스트 상자에 붙여넣습니다.

  21. 적용을 클릭합니다. 스크립트가 데이터 샘플에 대해 실행되고 미리보기 대화 상자로 돌아갑니다.
  22. 구체화된 데이터를 가져오려면 완료를 클릭합니다.

관련 항목

데이터를 미리보고 가져오기 옵션을 지정하는 방법

데이터 가져오기