https://towardsdatascience.com/distinct-vs-dropduplicates-in-spark-3e28af1f793c
distinct() vs dropDuplicates() in Spark
What’s the difference between distinct() and dropDuplicates() in Spark?
towardsdatascience.com
공통점 : 둘 다 중복행 제거
차이점 :
df.distinct()
- 인자 없음
- 해당 df에서 모든 컬럼 기준으로 중복된 행 제거하고 남은 df 반환
df.dropDuplicated([col1, col2, ...])
- 인자 있음
- 해당 df에서 [col1, col2, ..] 선택한 컬럼 기준으로 중복된 행 제거하고 남은 df 반환
'데이터처리 > Pyspark' 카테고리의 다른 글
[하둡 DAY1] 하둡 기본 개념 (0) | 2021.05.16 |
---|