[pyspark] distinct() vs dropDuplicates() :: 순간 기록

[pyspark] distinct() vs dropDuplicates()

2021. 5. 24. 18:55

https://towardsdatascience.com/distinct-vs-dropduplicates-in-spark-3e28af1f793c

distinct() vs dropDuplicates() in Spark

What’s the difference between distinct() and dropDuplicates() in Spark?

towardsdatascience.com

공통점 : 둘 다 중복행 제거

차이점 :

df.distinct()

인자 없음
해당 df에서 모든 컬럼 기준으로 중복된 행 제거하고 남은 df 반환

df.dropDuplicated([col1, col2, ...])

인자 있음
해당 df에서 [col1, col2, ..] 선택한 컬럼 기준으로 중복된 행 제거하고 남은 df 반환

저작자표시 비영리 변경금지 (새창열림)

'데이터처리 > Pyspark' 카테고리의 다른 글

[하둡 DAY1] 하둡 기본 개념 (0)	2021.05.16

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바