• Kaggle House Prices Prediction Competition with R (한글 번역) EDA & FE [4]

    캐글 Rmd 링크 5.3 Label encoding/ factorizing the ramaining character variables {.tabset} 결측치는 다 살펴보았지만, character 타입이었던 변수들은 아직 확인이 되지 않았다. 그래서 이번에도 탭으로 구분하여 살펴 보겠다. Charcol <- names(all[,sapply(all, is.character)]) #문자형 변수만 선별하여 생성 Charcol cat('There are', length(Charcol), 'remaining columns with character values') 5.3.1 Foundation ** Foundation: 건물...


  • Kaggle House Prices Prediction Competition with R (한글 번역) EDA & FE [3]

    캐글 Rmd 링크 5.2.12 Utilities ** Utilities: 사용할 수 있는 Utilities의 종류 ** 결측치는 2개이다. AllPub All public Utilities (E,G,W,& S) NoSewr Electricity, Gas, and Water (Septic Tank) NoSeWa Electricity and Gas Only ELO Electricity only 관측된 데이터중 한 집을 제외하곤 모두 AllPub 이다. 한 집은 train 데이터에만 있고, test에는...


  • Kaggle House Prices Prediction Competition with R (한글 번역) EDA & FE [2]

    캐글 Rmd 링크 5.2.8 Basement variables ** Basement 관련 변수는 11개이다 ** 이 중 5개 변수는 79 - 82개의 결측치고, 6개 변수는 1개 또는 2개의 결측치가 있다. # 79개의 결측치가 80 이상의 결측치의 값과 동일한 관측치를 보이는지 확인하겠다. length(which(is.na(all$BsmtQual) & is.na(all$BsmtCond) & is.na(all$BsmtExposure) & is.na(all$BsmtFinType1) & is.na(all$BsmtFinType2))) # 추가 결측치...


  • Kaggle House Prices Prediction Competition with R (한글 번역) EDA & FE [1]

    5 Missing data, label encoding, and factorizing variables 캐글 Rmd 링크 5.1 Completeness of the data 우선 결측치를 포함한 변수들부터 확인해 보겠다. NAcol <- which(colSums(is.na(all)) > 0) # 모든 결측치 변수 생성 sort(colSums(sapply(all[NAcol], is.na)), decreasing = TRUE) #결측치 변수 별로 내림차순 정렬 cat('There are', length(NAcol), 'columns with missing values') ‘SalePrice’의...


  • House Prices Prediction with R (한글 번역) Introduction ~ 데이터 구조, 대표 변수 확인

    1 Introduction kaggle의 ‘House price prediction’ 대회이며, R 커널 번역 & 의역 필사본이다. 역자 첨언은 “참조), 첨)”으로 표시하였다. 상기 필사본은 Lasso, XGBoost를 앙상블해서 예측을 했으며, 세부적인 EDA가 특징이다. 원문 링크는 아래에 첨부하며, 필사는 Rmd파일이지만, 깃헙 블로그 특성상 md 파일만 올라가기에 가독성을 위해 약간의 수정을 했다. Rstudio상으로 돌려보길 원하시는 분들은 아래에...