Pandas - Como nivelar um índice hierárquico em colunas

325

Eu tenho um quadro de dados com um índice hierárquico no eixo 1 (colunas) (de uma groupby.aggoperação):

     USAF   WBAN  year  month  day  s_PC  s_CL  s_CD  s_CNT  tempf       
                                     sum   sum   sum    sum   amax   amin
0  702730  26451  1993      1    1     1     0    12     13  30.92  24.98
1  702730  26451  1993      1    2     0     0    13     13  32.00  24.98
2  702730  26451  1993      1    3     1    10     2     13  23.00   6.98
3  702730  26451  1993      1    4     1     0    12     13  10.04   3.92
4  702730  26451  1993      1    5     3     0    10     13  19.94  10.94

Quero aplainá-lo, para que fique assim (os nomes não são críticos - eu poderia renomear):

     USAF   WBAN  year  month  day  s_PC  s_CL  s_CD  s_CNT  tempf_amax  tmpf_amin   
0  702730  26451  1993      1    1     1     0    12     13  30.92          24.98
1  702730  26451  1993      1    2     0     0    13     13  32.00          24.98
2  702730  26451  1993      1    3     1    10     2     13  23.00          6.98
3  702730  26451  1993      1    4     1     0    12     13  10.04          3.92
4  702730  26451  1993      1    5     3     0    10     13  19.94          10.94

Como eu faço isso? (Eu tentei muito, sem sucesso.)

Por sugestão, aqui está a cabeça em forma de ditado

{('USAF', ''): {0: '702730',
  1: '702730',
  2: '702730',
  3: '702730',
  4: '702730'},
 ('WBAN', ''): {0: '26451', 1: '26451', 2: '26451', 3: '26451', 4: '26451'},
 ('day', ''): {0: 1, 1: 2, 2: 3, 3: 4, 4: 5},
 ('month', ''): {0: 1, 1: 1, 2: 1, 3: 1, 4: 1},
 ('s_CD', 'sum'): {0: 12.0, 1: 13.0, 2: 2.0, 3: 12.0, 4: 10.0},
 ('s_CL', 'sum'): {0: 0.0, 1: 0.0, 2: 10.0, 3: 0.0, 4: 0.0},
 ('s_CNT', 'sum'): {0: 13.0, 1: 13.0, 2: 13.0, 3: 13.0, 4: 13.0},
 ('s_PC', 'sum'): {0: 1.0, 1: 0.0, 2: 1.0, 3: 1.0, 4: 3.0},
 ('tempf', 'amax'): {0: 30.920000000000002,
  1: 32.0,
  2: 23.0,
  3: 10.039999999999999,
  4: 19.939999999999998},
 ('tempf', 'amin'): {0: 24.98,
  1: 24.98,
  2: 6.9799999999999969,
  3: 3.9199999999999982,
  4: 10.940000000000001},
 ('year', ''): {0: 1993, 1: 1993, 2: 1993, 3: 1993, 4: 1993}}

python pandas dataframe

— Ross R
fonte

5

você pode adicionar a saída df[:5].to_dict()como um exemplo para outras pessoas lerem no seu conjunto de dados?

— precisa saber é o seguinte

Boa ideia. Fiz isso acima, pois era muito longo para o comentário.

— Ross R

Há uma sugestão no pandasrastreador de problemas para implementar um método dedicado para isso.

— Joelostblom 10/07/2018

2

@joelostblom e de fato foi implementado (pandas 0.24.0 e acima). Eu postei uma resposta, mas basicamente agora você pode fazer dat.columns = dat.columns.to_flat_index(). Função de pandas incorporada.

— onlyphantom

471

Eu acho que a maneira mais fácil de fazer isso seria definir as colunas para o nível superior:

df.columns = df.columns.get_level_values(0)

Nota: se o nível to tiver um nome, você também poderá acessá-lo por este, em vez de 0.

.

Se você deseja combinar / joinseu MultiIndex em um índice (supondo que você tenha apenas entradas de string em suas colunas), você pode:

df.columns = [' '.join(col).strip() for col in df.columns.values]

Nota: precisamos stripo espaço em branco para quando não houver um segundo índice.

In [11]: [' '.join(col).strip() for col in df.columns.values]
Out[11]: 
['USAF',
 'WBAN',
 'day',
 'month',
 's_CD sum',
 's_CL sum',
 's_CNT sum',
 's_PC sum',
 'tempf amax',
 'tempf amin',
 'year']

— Andy Hayden
fonte

14

df.reset_index (inplace = True) pode ser uma solução alternativa.

— Tobias

8

um comentário secundário ... se você quiser usar _ para os vários níveis da coluna de combinação .. você pode usar isso ... df.columns = ['_'. join (col) .strip () para col em df.columns. valores]

— ihightower

30

pequenas modificações para manter o sublinhado apenas de colunas associadas:['_'.join(col).rstrip('_') for col in df.columns.values]

— Seiji Armstrong

Isso funcionou muito bem, se você quiser apenas o segundo uso da coluna: df.columns = [col [1] para col no df.columns.values]

— user3078500

1

Se você quiser usar em sum s_CDvez de s_CD sum, pode-se fazer df.columns = ['_'.join(col).rstrip('_') for col in [c[::-1] for c in df.columns.values]].

— irene

82

pd.DataFrame(df.to_records()) # multiindex become columns and new index is integers only

— Gleb Yarnykh
fonte

3

Isso funciona, mas deixa para trás nomes das colunas que são de difícil acesso por meio de programação e não são queriable

— DMEU

1

Isso não funcionará com a versão mais recente do pandas. Funciona com 0,18, mas não com 0,20 (mais recente até agora) #

— TH22 10/10

1

@dmeu para preservar os nomes das colunas pd.DataFrame(df.to_records(), columns=df.index.names + list(df.columns))

— Teoretic

1

Ele está preservando os nomes das colunas como tuplas para mim, e para manter o índice que eu uso:pd.DataFrame(df_volume.to_records(), index=df_volume.index).drop('index', axis=1)

— Jayen

54

Todas as respostas atuais neste tópico devem ter sido um pouco datadas. A partir da pandasversão 0.24.0, o .to_flat_index()que você precisa.

Da documentação do panda :

MultiIndex.to_flat_index ()

Converta um MultiIndex em um índice de tuplas que contém os valores de nível.

Um exemplo simples de sua documentação:

import pandas as pd
print(pd.__version__) # '0.23.4'
index = pd.MultiIndex.from_product(
        [['foo', 'bar'], ['baz', 'qux']],
        names=['a', 'b'])

print(index)
# MultiIndex(levels=[['bar', 'foo'], ['baz', 'qux']],
#           codes=[[1, 1, 0, 0], [0, 1, 0, 1]],
#           names=['a', 'b'])

Aplicando to_flat_index():

index.to_flat_index()
# Index([('foo', 'baz'), ('foo', 'qux'), ('bar', 'baz'), ('bar', 'qux')], dtype='object')

Utilizando-o para substituir os existentes `pandas` coluna

Um exemplo de como você o utilizaria dat, que é um DataFrame com uma MultiIndexcoluna:

dat = df.loc[:,['name','workshop_period','class_size']].groupby(['name','workshop_period']).describe()
print(dat.columns)
# MultiIndex(levels=[['class_size'], ['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']],
#            codes=[[0, 0, 0, 0, 0, 0, 0, 0], [0, 1, 2, 3, 4, 5, 6, 7]])

dat.columns = dat.columns.to_flat_index()
print(dat.columns)
# Index([('class_size', 'count'),  ('class_size', 'mean'),
#     ('class_size', 'std'),   ('class_size', 'min'),
#     ('class_size', '25%'),   ('class_size', '50%'),
#     ('class_size', '75%'),   ('class_size', 'max')],
#  dtype='object')

— onlyphantom
fonte

42

A resposta de Andy Hayden é certamente a maneira mais fácil - se você quiser evitar rótulos de coluna duplicados, precisará ajustar um pouco

In [34]: df
Out[34]: 
     USAF   WBAN  day  month  s_CD  s_CL  s_CNT  s_PC  tempf         year
                               sum   sum    sum   sum   amax   amin      
0  702730  26451    1      1    12     0     13     1  30.92  24.98  1993
1  702730  26451    2      1    13     0     13     0  32.00  24.98  1993
2  702730  26451    3      1     2    10     13     1  23.00   6.98  1993
3  702730  26451    4      1    12     0     13     1  10.04   3.92  1993
4  702730  26451    5      1    10     0     13     3  19.94  10.94  1993


In [35]: mi = df.columns

In [36]: mi
Out[36]: 
MultiIndex
[(USAF, ), (WBAN, ), (day, ), (month, ), (s_CD, sum), (s_CL, sum), (s_CNT, sum), (s_PC, sum), (tempf, amax), (tempf, amin), (year, )]


In [37]: mi.tolist()
Out[37]: 
[('USAF', ''),
 ('WBAN', ''),
 ('day', ''),
 ('month', ''),
 ('s_CD', 'sum'),
 ('s_CL', 'sum'),
 ('s_CNT', 'sum'),
 ('s_PC', 'sum'),
 ('tempf', 'amax'),
 ('tempf', 'amin'),
 ('year', '')]

In [38]: ind = pd.Index([e[0] + e[1] for e in mi.tolist()])

In [39]: ind
Out[39]: Index([USAF, WBAN, day, month, s_CDsum, s_CLsum, s_CNTsum, s_PCsum, tempfamax, tempfamin, year], dtype=object)

In [40]: df.columns = ind




In [46]: df
Out[46]: 
     USAF   WBAN  day  month  s_CDsum  s_CLsum  s_CNTsum  s_PCsum  tempfamax  tempfamin  \
0  702730  26451    1      1       12        0        13        1      30.92      24.98   
1  702730  26451    2      1       13        0        13        0      32.00      24.98   
2  702730  26451    3      1        2       10        13        1      23.00       6.98   
3  702730  26451    4      1       12        0        13        1      10.04       3.92   
4  702730  26451    5      1       10        0        13        3      19.94      10.94   




   year  
0  1993  
1  1993  
2  1993  
3  1993  
4  1993

— Theodros Zelleke
fonte

2

obrigado Theodros! Esta é a única solução correta que lida com todos os casos!

— CanCeylan

17

df.columns = ['_'.join(tup).rstrip('_') for tup in df.columns.values]

— tvt173
fonte

14

E se você deseja reter alguma das informações de agregação do segundo nível do multi-índice, você pode tentar o seguinte:

In [1]: new_cols = [''.join(t) for t in df.columns]
Out[1]:
['USAF',
 'WBAN',
 'day',
 'month',
 's_CDsum',
 's_CLsum',
 's_CNTsum',
 's_PCsum',
 'tempfamax',
 'tempfamin',
 'year']

In [2]: df.columns = new_cols

— Zelazny7
fonte

new_colsnão está definido.

— samthebrand

11

A maneira mais pitônica de fazer isso para usar a mapfunção

df.columns = df.columns.map(' '.join).str.strip()

Saída print(df.columns):

Index(['USAF', 'WBAN', 'day', 'month', 's_CD sum', 's_CL sum', 's_CNT sum',
       's_PC sum', 'tempf amax', 'tempf amin', 'year'],
      dtype='object')

Atualize usando Python 3.6+ com a string f:

df.columns = [f'{f} {s}' if s != '' else f'{f}' 
              for f, s in df.columns]

print(df.columns)

Resultado:

Index(['USAF', 'WBAN', 'day', 'month', 's_CD sum', 's_CL sum', 's_CNT sum',
       's_PC sum', 'tempf amax', 'tempf amin', 'year'],
      dtype='object')

— Scott Boston
fonte

9

A solução mais fácil e intuitiva para mim foi combinar os nomes das colunas usando get_level_values . Isso evita nomes de colunas duplicados quando você faz mais de uma agregação na mesma coluna:

level_one = df.columns.get_level_values(0).astype(str)
level_two = df.columns.get_level_values(1).astype(str)
df.columns = level_one + level_two

Se você deseja um separador entre colunas, você pode fazer isso. Isso retornará o mesmo que o comentário de Seiji Armstrong na resposta aceita, que inclui apenas sublinhados para colunas com valores nos dois níveis de índice:

level_one = df.columns.get_level_values(0).astype(str)
level_two = df.columns.get_level_values(1).astype(str)
column_separator = ['_' if x != '' else '' for x in level_two]
df.columns = level_one + column_separator + level_two

Eu sei que isso faz o mesmo que a ótima resposta de Andy Hayden acima, mas acho que é um pouco mais intuitivo e fácil de lembrar (por isso não preciso continuar me referindo a esse tópico), especialmente para usuários iniciantes de pandas .

Esse método também é mais extensível no caso em que você pode ter três níveis de coluna.

level_one = df.columns.get_level_values(0).astype(str)
level_two = df.columns.get_level_values(1).astype(str)
level_three = df.columns.get_level_values(2).astype(str)
df.columns = level_one + level_two + level_three

— corporal11
fonte

6

Depois de ler todas as respostas, vim com isso:

def __my_flatten_cols(self, how="_".join, reset_index=True):
    how = (lambda iter: list(iter)[-1]) if how == "last" else how
    self.columns = [how(filter(None, map(str, levels))) for levels in self.columns.values] \
                    if isinstance(self.columns, pd.MultiIndex) else self.columns
    return self.reset_index() if reset_index else self
pd.DataFrame.my_flatten_cols = __my_flatten_cols

Uso:

Dado um quadro de dados:

df = pd.DataFrame({"grouper": ["x","x","y","y"], "val1": [0,2,4,6], 2: [1,3,5,7]}, columns=["grouper", "val1", 2])

  grouper  val1  2
0       x     0  1
1       x     2  3
2       y     4  5
3       y     6  7

Método de agregação único : variáveis resultantes nomeadas da mesma forma que fonte :

df.groupby(by="grouper").agg("min").my_flatten_cols()

Igual df.groupby(by="grouper", a_index = False) ou .agg(...).reset_index ()

----- before -----
           val1  2
  grouper         

------ after -----
  grouper  val1  2
0       x     0  1
1       y     4  5

Variável de origem única, várias agregações : variáveis resultantes nomeadas após estatísticas :

df.groupby(by="grouper").agg({"val1": [min,max]}).my_flatten_cols("last")

O mesmo que a = df.groupby(..).agg(..); a.columns = a.columns.droplevel(0); a.reset_index().

----- before -----
            val1    
           min max
  grouper         

------ after -----
  grouper  min  max
0       x    0    2
1       y    4    6

Várias variáveis, várias agregações : variáveis resultantes nomeadas (varname) _ (statname) :
```
df.groupby(by="grouper").agg({"val1": min, 2:[sum, "size"]}).my_flatten_cols()
# you can combine the names in other ways too, e.g. use a different delimiter:
#df.groupby(by="grouper").agg({"val1": min, 2:[sum, "size"]}).my_flatten_cols(" ".join)
```
- É executado a.columns = ["_".join(filter(None, map(str, levels))) for levels in a.columns.values]sob o capô (já que essa forma de agg()resultado emMultiIndex colunas).
- Se você não tem o my_flatten_colsajudante, que poderia ser mais fácil de digitar a solução sugerida por @Seigi : a.columns = ["_".join(t).rstrip("_") for t in a.columns.values], que funciona de forma semelhante, neste caso (mas não se você tem rótulos numéricos em colunas)
- Para manipular os rótulos numéricos nas colunas, você pode usar a solução sugerida por @jxstanford e @Nolan Conaway ( a.columns = ["_".join(tuple(map(str, t))).rstrip("_") for t in a.columns.values]), mas não entendo por que a tuple()chamada é necessária e acredito que rstrip()só será necessária se algumas colunas tiverem um descritor como ("colname", "")( o que pode acontecer se você reset_index()antes de tentar consertar .columns)
- ```
----- before -----
           val1           2     
           min       sum    size
  grouper              

------ after -----
  grouper  val1_min  2_sum  2_size
0       x         0      4       2
1       y         4     12       2
```

Você deseja nomear as variáveis resultantes manualmente: (isso é obsoleto desde pandas 0.20.0 com qualquer alternativa adequada a partir de 0,23 )

df.groupby(by="grouper").agg({"val1": {"sum_of_val1": "sum", "count_of_val1": "count"},
                                   2: {"sum_of_2":    "sum", "count_of_2":    "count"}}).my_flatten_cols("last")

De outros sugestões incluem : configuração manual das colunas: res.columns = ['A_sum', 'B_sum', 'count']ou .join()ing várias groupbyinstruções.

----- before -----
                   val1                      2         
          count_of_val1 sum_of_val1 count_of_2 sum_of_2
  grouper                                              

------ after -----
  grouper  count_of_val1  sum_of_val1  count_of_2  sum_of_2
0       x              2            2           2         4
1       y              2           10           2        12

Casos tratados pela função auxiliar

nomes de nível podem não ser de seqüência de caracteres, por exemplo, Index pandas DataFrame por números de coluna, quando os nomes de coluna são inteiros , portanto, temos que converter commap(str, ..)
eles também podem estar vazios, então temos que filter(None, ..)
para colunas de nível único (ou seja, qualquer coisa, exceto MultiIndex), columns.valuesretorna os nomes ( stre não as tuplas)
dependendo de como você usou, .agg()pode ser necessário manter o rótulo mais baixo de uma coluna ou concatenar vários rótulos
(como sou novato em pandas?) com mais frequência, desejo reset_index()poder trabalhar com as colunas agrupar de maneira regular, por isso é o padrão

— Nickolay
fonte

resposta realmente ótima, você pode explicar o trabalho de '[" " .join (tupla (mapa (str, t))). rstrip (" ") para t em a.columns.values]', obrigado antecipadamente

— Vineet 26/07

@Vineet Atualizei minha postagem para indicar que mencionei esse trecho para sugerir que ele tem um efeito semelhante à minha solução. Se você quiser detalhes sobre o motivo, tuple()é necessário comentar a publicação de jxstanford. Caso contrário, ele pode ser útil para inspecionar o .columns.valuesno exemplo fornecido: [('val1', 'min'), (2, 'sum'), (2, 'size')]. 1) for t in a.columns.valuesloops sobre as colunas, para a segunda coluna t == (2, 'sum'); 2) map(str, t)se aplica str()a cada "nível", resultando em ('2', 'sum'); 3) "_".join(('2','sum'))resulta em "2_sum",

— Nickolay

5

Uma solução geral que lida com vários níveis e tipos mistos:

df.columns = ['_'.join(tuple(map(str, t))) for t in df.columns.values]

— jxstanford
fonte

1

Caso também existam colunas não hierárquicas:df.columns = ['_'.join(tuple(map(str, t))).rstrip('_') for t in df.columns.values]

— Nolan Conaway

Obrigado. Estava procurando por muito tempo. Desde que meu índice multinível continha valores inteiros. Ele resolveu o meu problema :)

— AnksG

4

Um pouco tarde, talvez, mas se você não estiver preocupado com nomes de colunas duplicados:

df.columns = df.columns.tolist()

— Niels
fonte

Para mim, isso altera os nomes das colunas para serem parecidos com tuplas: (year, )e(tempf, amax)

— Nickolay 28/05

3

Caso você queira ter um separador no nome entre os níveis, essa função funcionará bem.

def flattenHierarchicalCol(col,sep = '_'):
    if not type(col) is tuple:
        return col
    else:
        new_col = ''
        for leveli,level in enumerate(col):
            if not level == '':
                if not leveli == 0:
                    new_col += sep
                new_col += level
        return new_col

df.columns = df.columns.map(flattenHierarchicalCol)

— agartland
fonte

1

Eu gosto disso. Deixando de fora o caso em que as colunas são não hierárquica isso pode ser muito simplificado:df.columns = ["_".join(filter(None, c)) for c in df.columns]

— Gigo

3

Seguindo @jxstanford e @ tvt173, escrevi uma função rápida que deveria resolver o problema, independentemente dos nomes das colunas string / int:

def flatten_cols(df):
    df.columns = [
        '_'.join(tuple(map(str, t))).rstrip('_') 
        for t in df.columns.values
        ]
    return df

— Nolan Conaway
fonte

1

Você também pode fazer o seguinte. Considere dfser o seu dataframe e assuma um índice de dois níveis (como é o caso no seu exemplo)

df.columns = [(df.columns[i][0])+'_'+(datadf_pos4.columns[i][1]) for i in range(len(df.columns))]

— vaca sagrada
fonte

1

Vou compartilhar uma maneira direta que funcionou para mim.

[" ".join([str(elem) for elem in tup]) for tup in df.columns.tolist()]
#df = df.reset_index() if needed

— Lean Bravo
fonte

0

Para nivelar um MultiIndex dentro de uma cadeia de outros métodos DataFrame, defina uma função como esta:

def flatten_index(df):
  df_copy = df.copy()
  df_copy.columns = ['_'.join(col).rstrip('_') for col in df_copy.columns.values]
  return df_copy.reset_index()

Em seguida, use o pipemétodo para aplicar esta função na cadeia de métodos DataFrame, antes groupbye depois de aggqualquer outro método na cadeia:

my_df \
  .groupby('group') \
  .agg({'value': ['count']}) \
  .pipe(flatten_index) \
  .sort_values('value_count')

— ianmcook
fonte

0

Outra rotina simples.

def flatten_columns(df, sep='.'):
    def _remove_empty(column_name):
        return tuple(element for element in column_name if element)
    def _join(column_name):
        return sep.join(column_name)

    new_columns = [_join(_remove_empty(column)) for column in df.columns.values]
    df.columns = new_columns

— Ufos
fonte

Pandas - Como nivelar um índice hierárquico em colunas

Utilizando-o para substituir os existentes pandas coluna

Atualize usando Python 3.6+ com a string f:

Uso:

Casos tratados pela função auxiliar

Utilizando-o para substituir os existentes `pandas` coluna