Resposta rápida:
A maneira mais simples de obter contagens de linhas por grupo é chamando .size()
, que retorna Series
:
df.groupby(['col1','col2']).size()
Normalmente, você deseja esse resultado como DataFrame
(em vez de a Series
) para poder:
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Se você quiser descobrir como calcular as contagens de linhas e outras estatísticas para cada grupo, continue lendo abaixo.
Exemplo detalhado:
Considere o seguinte exemplo de quadro de dados:
In [2]: df
Out[2]:
col1 col2 col3 col4 col5 col6
0 A B 0.20 -0.61 -0.49 1.49
1 A B -1.53 -1.01 -0.39 1.82
2 A B -0.44 0.27 0.72 0.11
3 A B 0.28 -1.32 0.38 0.18
4 C D 0.12 0.59 0.81 0.66
5 C D -0.13 -1.65 -1.64 0.50
6 C D -1.42 -0.11 -0.18 -0.44
7 E F -0.00 1.42 -0.26 1.17
8 E F 0.91 -0.47 1.35 -0.34
9 G H 1.48 -0.63 -1.14 0.17
Primeiro vamos usar .size()
para obter a contagem de linhas:
In [3]: df.groupby(['col1', 'col2']).size()
Out[3]:
col1 col2
A B 4
C D 3
E F 2
G H 1
dtype: int64
Então vamos usar .size().reset_index(name='counts')
para obter a contagem de linhas:
In [4]: df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Out[4]:
col1 col2 counts
0 A B 4
1 C D 3
2 E F 2
3 G H 1
Incluindo resultados para mais estatísticas
Quando você deseja calcular estatísticas sobre dados agrupados, geralmente é assim:
In [5]: (df
...: .groupby(['col1', 'col2'])
...: .agg({
...: 'col3': ['mean', 'count'],
...: 'col4': ['median', 'min', 'count']
...: }))
Out[5]:
col4 col3
median min count mean count
col1 col2
A B -0.810 -1.32 4 -0.372500 4
C D -0.110 -1.65 3 -0.476667 3
E F 0.475 -0.47 2 0.455000 2
G H -0.630 -0.63 1 1.480000 1
O resultado acima é um pouco chato de lidar por causa dos rótulos das colunas aninhadas e também porque as contagens de linhas são por coluna.
Para obter mais controle sobre a saída, costumo dividir as estatísticas em agregações individuais que depois combino join
. Se parece com isso:
In [6]: gb = df.groupby(['col1', 'col2'])
...: counts = gb.size().to_frame(name='counts')
...: (counts
...: .join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'}))
...: .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'}))
...: .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'}))
...: .reset_index()
...: )
...:
Out[6]:
col1 col2 counts col3_mean col4_median col4_min
0 A B 4 -0.372500 -0.810 -1.32
1 C D 3 -0.476667 -0.110 -1.65
2 E F 2 0.455000 0.475 -0.47
3 G H 1 1.480000 -0.630 -0.63
Notas de rodapé
O código usado para gerar os dados de teste é mostrado abaixo:
In [1]: import numpy as np
...: import pandas as pd
...:
...: keys = np.array([
...: ['A', 'B'],
...: ['A', 'B'],
...: ['A', 'B'],
...: ['A', 'B'],
...: ['C', 'D'],
...: ['C', 'D'],
...: ['C', 'D'],
...: ['E', 'F'],
...: ['E', 'F'],
...: ['G', 'H']
...: ])
...:
...: df = pd.DataFrame(
...: np.hstack([keys,np.random.randn(10,4).round(2)]),
...: columns = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6']
...: )
...:
...: df[['col3', 'col4', 'col5', 'col6']] = \
...: df[['col3', 'col4', 'col5', 'col6']].astype(float)
...:
Aviso Legal:
Se algumas das colunas que você está agregando tiverem valores nulos, você realmente deseja observar as contagens de linhas do grupo como uma agregação independente para cada coluna. Caso contrário, você poderá se enganar sobre quantos registros estão realmente sendo usados para calcular coisas como a média, porque os pandas descartarão NaN
entradas no cálculo da média sem informar sobre isso.
df[['col1','col2','col3','col4']].groupby(['col1','col2']).agg(['mean', 'count'])