Programação dataframe

5

Renomeando os nomes das colunas de um DataFrame no Spark Scala

Estou tentando converter todos os nomes de cabeçalhos / colunas de um DataFrameno Spark-Scala. a partir de agora eu vim com o seguinte código que substitui apenas um único nome de coluna. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

6

seleção de pandas com vários índices

Eu tenho um quadro de dados de vários índices com colunas 'A' e 'B'. Existe uma maneira de selecionar linhas filtrando em uma coluna do multi-índice sem redefinir o índice para um índice de coluna única? Por exemplo. # has multi-index (A,B) df #can I do this? I know this …

92 python pandas dataframe multi-index

5

Construir pandas DataFrame a partir de itens no dicionário aninhado

Suponha que eu tenha um dicionário aninhado 'user_dict' com a estrutura: Nível 1: UserId (número inteiro longo) Nível 2: Categoria (String) Nível 3: Atributos variados (flutuadores, ints, etc.) Por exemplo, uma entrada deste dicionário seria: user_dict[12] = { "Category 1": {"att_1": 1, "att_2": "whatever"}, "Category 2": {"att_1": 23, "att_2": "another"}} …

90 python pandas dataframe multi-index

13

Comparando dois dataframes e obtendo as diferenças

Eu tenho dois dataframes. Exemplos: df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 …

89 python pandas dataframe

5

Spark DataFrame groupBy e classificação em ordem decrescente (pyspark)

Estou usando o pyspark (Python 2.7.9 / Spark 1.3.1) e tenho um GroupObject de dataframe que preciso filtrar e classificar em ordem decrescente. Tentar consegui-lo por meio deste pedaço de código. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mas isso gera o seguinte erro. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

5

como dividir a coluna de tuplas no dataframe do pandas?

Eu tenho um dataframe do pandas (este é apenas um pequeno pedaço) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622, 27.382483096332511) LCV \ 0 (19.365430594452338, 13.880062435173587) 1 (19.099614489458364, 14.018867136617146) …

88 python numpy pandas dataframe tuples

6

Como adicionar um sufixo (ou prefixo) a cada nome de coluna?

Quero adicionar _xsufixo a cada nome de coluna assim: featuresA = myPandasDataFrame.columns.values + '_x' Como eu faço isso? Além disso, se eu quisesse adicionar x_como sufixo, como a solução mudaria?

88 python pandas dataframe

7

Substituindo alguns valores em uma coluna de dataframe do pandas por outro valor

Eu tenho um dataframe df do pandas conforme ilustrado abaixo: BrandName Specialty A H B I ABC J D K AB L Desejo substituir 'ABC' e 'AB' na coluna BrandName por A. Alguém pode ajudar com isso?

88 python replace pandas dataframe

17

Adicione (insira) uma coluna entre duas colunas em um data.frame

Eu tenho um quadro de dados que possui colunas a, b e c. Eu gostaria de adicionar uma nova coluna d entre be c. Eu sei que poderia apenas adicionar d no final usando cbind, mas como posso inseri- lo entre duas colunas?

87 r dataframe insert

1

Aplicar função a cada célula no DataFrame

Eu tenho um dataframe que pode ser parecido com este: A B C foo bar foo bar bar foo foo bar Quero examinar cada elemento de cada linha (ou cada elemento de cada coluna) e aplicar a seguinte função para obter o DF subsequente: def foo_bar(x): return x.replace('foo', 'wow') A …

87 python pandas dataframe apply

7

Selecione a primeira linha por grupo

De um dataframe como este test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 …

87 r dataframe sqldf

5

Mudar coluna em um dataframe do pandas?

Eu tenho um dataframe do pandas. Eu quero 'retardar' uma de minhas colunas. Isso significa, por exemplo, deslocar a coluna inteira 'gdp' para cima em um e, em seguida, remover todos os dados em excesso na parte inferior das linhas restantes para que todas as colunas tenham o mesmo comprimento …

86 python pandas dataframe

3

Divida um grande dataframe em uma lista de frames de dados com base no valor comum na coluna

Tenho um data frame com 10 colunas, coletando ações de “usuários”, onde uma das colunas contém um ID (não único, identificando usuário) (coluna 10). o comprimento do quadro de dados é de cerca de 750000 linhas. Estou tentando extrair quadros de dados individuais (obtendo assim uma lista ou vetor de …

86 r performance matrix split dataframe

5

Converter vetor de caracteres nomeados em data.frame

Eu tenho um vetor de caractere nomeado retornado de xmlAttrs como este: testVect <- structure(c("11.2.0.3.0", "12.89", "12.71"), .Names = c("db_version", "elapsed_time", "cpu_time")) Eu gostaria de convertê-lo em um quadro de dados parecido com este: testDF <- data.frame("db_version"="11.2.0.3.0","elapsed_time"=12.89,"cpu_time"=12.71) head(testDF) db_version elapsed_time cpu_time 1 11.2.0.3.0 12.89 12.71

86 r dataframe vector type-conversion

7

Adicionar nova coluna ao quadro de dados com base no dicionário

Eu tenho um quadro de dados e um dicionário. Preciso adicionar uma nova coluna ao quadro de dados e calcular seus valores com base no dicionário. Aprendizado de máquina, adicionando novo recurso com base em alguma tabela: score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : …

23 python pandas dataframe dictionary

Perguntas com a marcação «dataframe»