Я пытаюсь ответить на этот вопрос:
Используйте пакет nycflights13 и фрейм данных о рейсах, чтобы ответить на следующие вопросы: В каком месяце была самая высокая доля отмененных рейсов? В каком месяце был самый низкий показатель? Интерпретируйте любые сезонные закономерности.
Технически я ответил на вопрос, но я пытаюсь сделать более краткую информацию, чем то, что у меня есть сейчас.
Это то, что у меня есть до сих пор:
#Load packages
library(nycflights13)
library(tidyverse)
#Data frame "cancprop" with three new variables ("canc" = flights that were canceled, "notc" = flights that were not canceled, and "canp" = proportion of all flights that were canceled)
cancprop <- flights %>%
mutate(
canc = is.na(dep_time),
notc = !is.na(dep_time),
canp = canc / (canc + notc)
)
#A tibble showing the average proportion of all flights that were canceled by month sorted by descending average proportion.
cancprop %>%
group_by(month) %>%
summarize(mcanp = mean(canp)) %>%
arrange(desc(mcanp))
# A tibble: 12 x 2
month mcanp
<int> <dbl>
1 2 0.0505
2 12 0.0364
3 6 0.0357
4 7 0.0319
5 3 0.0299
6 4 0.0236
7 5 0.0196
8 1 0.0193
9 8 0.0166
10 9 0.0164
11 11 0.00854
12 10 0.00817
#Data frame "seas" with a new variable ("season" = the season corresponding with the month)
seas <- cancprop %>%
group_by(month) %>%
summarize(mcanp = mean(canp)) %>%
mutate(
season = case_when(
month %in% 3:5 ~ "Spring",
month %in% 6:8 ~ "Summer",
month %in% 9:11 ~ "Fall",
TRUE ~ "Winter"
))
seas
# A tibble: 12 x 3
month mcanp season
<int> <dbl> <chr>
1 1 0.0193 Winter
2 2 0.0505 Winter
3 3 0.0299 Spring
4 4 0.0236 Spring
5 5 0.0196 Spring
6 6 0.0357 Summer
7 7 0.0319 Summer
8 8 0.0166 Summer
9 9 0.0164 Fall
10 10 0.00817 Fall
11 11 0.00854 Fall
12 12 0.0364 Winter
#A plot showing the proportion of flights canceled
ggplot(seas, aes(x = factor(month), y = mcanp, fill = season)) +
geom_bar(stat = "identity") +
labs(x = "Month", y = "Proportion of Flights Canceled", color = "Season")
То, что я хочу создать, — это таблица, показывающая среднюю долю рейсов, отмененных за сезон, например эту (со случайными, не рассчитанными пропорциями, поскольку я не уверен, как на самом деле получить результаты):
# A tibble: 4 x 2
season mcanp
<chr> <dbl>
1 Winter 0.0433
2 Spring 0.0235
3 Summer 0.0109
4 Fall 0.0246
Любая помощь приветствуется, спасибо!
seas %>% group_by(season) %>% summarise(mcanp = mean(mcanp))
? - person Ronak Shah   schedule 29.02.2020seas %>% group_by(season) %>% summarise(mcanp = mean(mcanp))
дает 1 Зима 0,0354, 2 Лето 0,0281, 3 Весна 0,0243, 4 Осень 0,0110 Принимая во внимание, что ответ, который я ищу, - 1 Зима 0,0350< /b>, 2 Лето 0,0280, 3 Весна 0,0243, 4 Осень 0,0110 - person Taylor Lee   schedule 29.02.2020