2. Time series graphics

<aside> 💡 [2강 주요 함수]

</aside>

2.0 Preface

데이터 분석의 첫 번째 태스크는 데이터를 그래프로 나타내는 것이다. 그래프는 패턴, 특이한 관측값, 시간에 따른 변화, 변수 간 관계 등 데이터의 많은 특징들이 시각화될 수 있게 한다. 플롯에서 볼 수 있는 특징들은, 사용할 예측 방식에 가능한 한 많이 포함되어야 한다. 데이터 종류가 사용할 예측 방식을 결정하는 것 만큼이나, 데이터 종류는 또한 어떤 그래프가 적절한지도 결정한다. 우선 R에서 그려보자!

2.1 tsibble objects

‘시계열’은 측정치의 목록과, 해당 값들이 어느 시간대에 측정되었는지에 대한 정보(index)로 이루어져 있다. R에서 tsibble object로 저장된다.

2.2 Time plots

시계열 데이터의 경우, 가장 먼저 그려야 할 것은 시간 그래프이다. 즉, 연속적인 관측치들은 직선으로 연결되어 관측시간에 대해 그려진다.

melsyd_economy <- ansett |>
  filter(Airports == "MEL-SYD", Class == "Economy") |>
  mutate(Passengers = Passengers/1000)

autoplot(melsyd_economy, Passengers) +
  labs(title = "Ansett airlines economy class",
       subtitle = "Melbourne-Sydney",
       y = "Passengers ('000)")

autoplot 함수를 자주 쓰게 될 것이다. 첫 매개변수로 뭘 넣든 적절한 그래프를 내놓을 것이다. 이 경우, melsyd_economy를 시계열 데이터로 인식하고 시간 그래프를 그려졌다.

이 시간 그래프는 즉시 흥미로운 특징들을 밝혀낸다.

<aside> 💡 - 노동 쟁의로 인해 1989년에 손님이 없었던 때가 있다.

</aside>