Я хочу привести пример дисперсии набора данных путем начальной загрузки (пересчета) данных.
from numpy.random import randn
fig,ax = plt.subplots()
bins = arange(-5,6,0.5)
df = pd.DataFrame(randn(3000))
df.hist(ax=ax, bins=bins, alpha = 0.7, normed=True)
count_collection = []
for i in xrange(1,100):
temp_df = df.sample(frac=0.5, replace=True)
temp_df.hist(ax=ax, bins=bins, alpha = 0.25, normed=True)
count, division = np.histogram(temp_df, bins=bins)
count_collection.append(count)
Однако такому сюжету трудно увидеть предел. Можно ли построить верхний/нижний предел гистограммы, чтобы она была более четкой, может быть, что-то вроде Boxplot для каждого бина?
(источник: matplotlib.org )
или просто кривые с верхним/нижним пределом для указания диапазона?
Моя основная трудность заключается в извлечении максимального/минимального значения для каждой корзины (count_collection
)
ОБНОВИТЬ:
Что было бы хорошим способом построить диапазон?
count_collection = np.array(count_collection)
mx = np.max(count_collection,0)
mn = np.min(count_collection,0)
ax.plot(division[1:]-0.25, mx, '_', mew=1)
ax.plot(division[1:]-0.25, mn, '_', mew=1)
Я считаю, что это все еще трудно смотреть, есть предложения?
numpy.histogram
, который выполняет биннинг без построения графика. Вы можете использовать его, чтобы получить данные, а затем построить их так, как вам нравится. - person BrenBarn   schedule 25.07.2016np.histogram
и использую его для сбора всех данных. Я просто не знаю, как получить максимальное/минимальное значение из коллекции значений. - person cqcn1991   schedule 25.07.2016count
собиратьtemp_df
? В противном случае кажется, что это всего лишь 100 повторенийdf
... - person Aguy   schedule 25.07.2016