https://towardsdatascience.com/distinct-vs-dropduplicates-in-spark-3e28af1f793c

 

distinct() vs dropDuplicates() in Spark

What’s the difference between distinct() and dropDuplicates() in Spark?

towardsdatascience.com

 

공통점 : 둘 다 중복행 제거

차이점 :

df.distinct()

  • 인자 없음 
  • 해당 df에서 모든 컬럼 기준으로 중복된 행 제거하고 남은 df 반환

df.dropDuplicated([col1, col2, ...])

  • 인자 있음
  • 해당 df에서 [col1, col2, ..] 선택한 컬럼 기준으로 중복된 행 제거하고 남은 df 반환

'데이터처리 > Pyspark' 카테고리의 다른 글

[하둡 DAY1] 하둡 기본 개념  (0) 2021.05.16

+ Recent posts