• 캐글코리아 2nd Competition House Price Prediction with R (시애틀 집값 예측) Modeling

    6 Preparing data for modeling 참조 & 필사한 링크를 첨부한다. ‘erikbruin’의 링크를 참조하다 에러가 나는 부분이 많아, 아래 ‘psystat’님의 커널을 필사했다. 들어가는 변수가 달라 점수는 차이가 많이 난다. 최적화 parameter를 찾아서 모델을 손보려 했는데 이 부분은 통계와 수학의 기반 지식이 필요해서 지금은 불가능했다. 이번 컴퍼티션은 EDA와 FE까지를 주로 보고, 모델링은...


  • 캐글코리아 2nd Competition House Price Prediction with R (시애틀 집값 예측) FE

    5 Feature Engineering 건축년도로 구분한 집의 년수와, 리모델링 여부, 신축 여부를 구분 지어 변수를 만들겠다. 5.1 Adding ‘House Age’, Remodeled(Yes/No)’, IsNew k_all$Remod <- ifelse(k_all$yr_built > k_all$yr_renovated, 0, 1) # 0 = '리모델링 X', 1 = '리모델링' temp <- ifelse(k_all$yr_renovated==0, k_all$yr_built, k_all$yr_renovated) #재건축이 아니면 디폴트로 건축년도 설정 k_all$Age <- as.numeric(k_all$Yrbuy)-temp ggplot(k_all[!is.na(k_all$price),],...


  • 캐글코리아 2nd Competition House Price Prediction with R (시애틀 집값 예측) Introduction ~ EDA

    1 Introduction 설명과 첨언의 글이 많아 이후 경어는 생략하고 진행하겠습니다. [원문 링크] ( md 파일이라 rmd 문법이 맞지 않아 수정해서 올리니, 캐글로 들어온 분들이라면 원문 링크로 들어가서 확인 바란다.) (“https://www.kaggle.com/maestroyi/house-price-prediction-with-r-eda-fe/report”) 참조 https://www.kaggle.com/erikbruin/house-prices-lasso-xgboost-and-a-detailed-eda/report https://www.kaggle.com/chocozzz/house-price-prediction-eda-updated-2019-03-12 https://www.kaggle.com/psystat/house-price-prediction-eda-and-lasso-with-r 캐글코리아 주최 2회째 Competition으로 주제는 House price prediction이며, 캐글에 있는 집값 예측은 보스턴 지역이지만, 캐코는 시애틀...


  • House Prices Prediction with R (한글 번역) Modeling

    8 Preparing data for modeling 8.1 Dropping highly correlated variables 상관 관계가 높은 두 변수가 있다면 한 변수를 삭제하겠다. 상관 관계 짝을 찾기 위해, 섹션 6.1에서 다룬 상관 행렬을 쓰겠다. 예를 들어 ‘Garage Cars’ & ‘GarageArea’ 의 상관 계수가 0.89이다. 둘 중 판매가와 상관 관계가 낮은 변수 하나를 지우겠다. (‘GarageArea’와...


  • Kaggle House Prices Prediction Competition with R (한글 번역) EDA & FE [5]

    캐글 Rmd 링크 6 Visualization of important variables 끝이 보인다. 모든 문자형 변수를 범주형 factor나, 라벨링하여 숫자형으로 인코딩했다. 더해서, 3개의 수치형 변수는 factor로 변환했고, 1개 변수(Utilities)는 삭제했다. 아래와 같이, 수치형 변수의 수는 이제 56개(종속 변수 포함), 남은 23개 변수는 범주형이다. numericVars <- which(sapply(all, is.numeric)) # index vector numeric variables factorVars...