• 캐글 Restaurant Visitor Forecasting Forecasting method & Weather data with R(한글 번역)

    8.3 Holt-Winters 보다 전통적인 시계열 필터링 및 예측은 ‘stats’ 패키지에 구현된 ‘Holt-Winters’ 알고리즘이다. 이건 이동 평균을 사용하여 데이터에 트렌드가 존재함을 고려하는 지수 평활법이다. 여기에선 피팅 및 플로팅 함수에 기본 계절 모델을 정의한다. plot_hw_air_id <- function(air_id){ pred_len <- test %>% separate(id, c('air', 'store_id', 'date'), sep = '_') %>% distinct(date) %>% nrow()...


  • 캐글 Restaurant Visitor Forecasting Time Series parameters & Forecasting method with R (한글 번역)

    7 Time series parameters 여러 식당의 지리적 특성이나 요리적 특성에 따른 new feature 생성 후, 고객수에 따른 시계열을 보겠다. 829개의 ‘air’ restaurnat는 829개의 시계열이 있고 그것들 각각을 개별적으로 보는 것은 실제로 쉽게 가능하다. 그리고 데이터에 대한 느낌을 얻기 위해 작은 부분이나 큰 부분을 그리는 커널이 있다. 다른 접근법을 취해서 각...


  • 캐글 Restaurant Visitor Forecasting Feature Engineering with R (한글 번역)

    6 Feature engineering 유의미한 인사이트를 알아낼 수 있는 feature들을 만들거나, 기존에서 추출해 보자. 이건 ‘date’ 컬럼에서 월이나 요일을 추출하는 것만큼 간단할 수도 있고, (‘Fig.1’에서 이미 한 것처럼) 여러 연관된 변수들의 상호 작용으로 더 복잡할 수도 있다. 이번 섹션에선 이런 새로운 feature들을 모아서 연구해보자. 개인적인 선호는 모든 engineered 된 feature들을 하나의...


  • 캐글 Restaurant Visitor Forecasting Feature Relations with R(한글 번역)

    5 Feature relations 개별 data set을 모두 확인해봤다. 이제 결합을 해보자. 여러 특징들의 관계와 이런 특징들이 방문객 수에 어떤 영향을 주는지를 찾아보자.어떤 신호든지 개별 feature 분포의 맥락 안에서 해석해야 한다. 5.1 Visitors per genre multi-feature space의 첫번째 차트는 ‘air_genre_name’에 따라 분류된 air restaurants의 평균 방문객 수를 나타낸다. facet plot을 써서...


  • 캐글 Restaurant Visitor Forecasting Introduction, EDA with R (한글 번역)

    1 Introduction Competition: Recruit Restaurant Visitor Forecasting 목표: 미래의 식당 고객 예측 Time-series 분석이며, 일본 2개 웹사이트(hpg & AirREGI)에서 나온 8개의 연관 파일로 이뤄진 일식당의 데이터다. 데이터의 용량이 작고, 쉬워서 초보자가 접근하기에 쉬운 Competition이다. Train set은 2016년 1월 ~ 2017년 4월이며, Test set은 2017년 4월 마지막 주 ~ 5월까지 포함한다....