Programação dataframe

8

Limpando valores `Inf` de um dataframe R

Em R, tenho uma operação que cria alguns Infvalores quando transformo um dataframe. Eu gostaria de transformar esses Infvalores em NAvalores. O código que tenho é lento para grandes dados. Existe uma maneira mais rápida de fazer isso? Digamos que eu tenha o seguinte dataframe: dat <- data.frame(a=c(1, Inf), b=c(Inf, …

101 r dataframe data.table

2

O objeto 'DataFrame' não tem o atributo 'sort'

Eu enfrento alguns problemas aqui, no meu pacote python eu instalei numpy, mas ainda tenho este erro 'DataFrame' objeto não tem atributo 'sort' Qualquer um pode me dar uma ideia .. Este é o meu código: final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() …

101 python pandas numpy dataframe

7

Como deslocar uma coluna no Pandas DataFrame

Eu gostaria de mudar uma coluna em um Pandas DataFrame, mas não consegui encontrar um método para fazer isso na documentação sem reescrever todo o DF. Alguém sabe fazer isso? Quadro de dados: ## x1 x2 ##0 206 214 ##1 226 234 ##2 245 253 ##3 265 272 ##4 283 …

101 python pandas dataframe

5

Substitua Nenhum por NaN no dataframe do pandas

Eu tenho mesa x: website 0 http://www.google.com/ 1 http://www.yahoo.com 2 None Quero substituir python None por pandas NaN. Eu tentei: x.replace(to_replace=None, value=np.nan) Mas eu tenho: TypeError: 'regex' must be a string or a compiled regular expression or a list or dict of strings or regular expressions, you passed a 'bool' …

101 pandas dataframe replace nan nonetype

6

Converter dados do pandas em séries

Eu sou um pouco novo para os pandas. Eu tenho um quadro de dados do pandas que tem 1 linha por 23 colunas. Eu quero converter isso em uma série? Estou me perguntando qual é a maneira mais python de fazer isso? Já tentei, pd.Series(myResults)mas reclama ValueError: cannot copy sequence …

101 python pandas dataframe series

1

Maneira de ler as primeiras linhas do dataframe do pandas

Existe uma maneira integrada de read_csvler apenas as primeiras nlinhas de um arquivo sem saber o comprimento das linhas com antecedência? Tenho um arquivo grande que leva muito tempo para ler e, ocasionalmente, só quero usar as primeiras, digamos, 20 linhas para obter uma amostra dele (e prefiro não carregar …

100 python pandas csv dataframe

9

Retorna várias colunas de pandas apply ()

Eu tenho um pandas trama de dados, df_test. Ele contém uma coluna 'tamanho' que representa o tamanho em bytes. Calculei KB, MB e GB usando o seguinte código: df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + …

100 python pandas dataframe apply

9

Mova a coluna pelo nome para a frente da mesa nos pandas

Aqui está meu df: Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 Como posso mover uma …

100 python pandas move dataframe shift

2

Coluna binning com python pandas

Eu tenho uma coluna Data Frame com valores numéricos: df['percentage'].head() 46.5 44.2 100.0 42.12 Quero ver a coluna como contagens de bin: bins = [0, 1, 5, 10, 25, 50, 100] Como posso obter o resultado em caixas com os seus value counts? [0, 1] bin amount [1, 5] etc …

99 python pandas numpy dataframe binning

5

como alterar uma coluna do Dataframe do tipo String para o tipo Double no pyspark

Eu tenho um dataframe com coluna como String. Eu queria alterar o tipo de coluna para tipo duplo no PySpark. A seguir está o caminho, eu fiz: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Só queria saber se essa é a maneira certa de fazer isso, pois enquanto estou …

99 python apache-spark dataframe pyspark apache-spark-sql

17

Como selecionar a linha com o valor máximo em cada grupo

Em um conjunto de dados com múltiplas observações para cada sujeito, quero pegar um subconjunto apenas com o valor máximo dos dados para cada registro. Por exemplo, com um conjunto de dados a seguir: ID <- c(1,1,1,2,2,2,2,3,3) Value <- c(2,3,5,2,5,8,17,3,5) Event <- c(1,1,2,1,2,1,2,2,2) group <- data.frame(Subject=ID, pt=Value, Event=Event) Os sujeitos …

99 r dataframe r-faq

10

Filtrar coluna de dataframe do Pyspark com valor Nenhum

Estou tentando filtrar um dataframe PySpark que tem Nonecomo valor de linha: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] e posso filtrar corretamente com um valor de string: df[df.dt_mvmt == '2016-03-31'] # some results here mas isso falha: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mas definitivamente existem valores …

98 python apache-spark dataframe pyspark apache-spark-sql

5

Adicionar coluna no dataframe da lista

Eu tenho um dataframe com algumas colunas como esta: A B C 0 4 5 6 7 7 6 5 O intervalo possível de valores em A é apenas de 0 a 7 . Além disso, tenho uma lista de 8 elementos como esta: List=[2,5,6,8,12,16,26,32] //There are only 8 elements …

98 python pandas dataframe

3

colunas de dataframe python pandas convertidas em chave e valor dict

Eu tenho um quadro de dados do pandas com várias colunas e gostaria de construir um dict a partir de duas colunas: uma como as chaves do dict e a outra como os valores do dict. Como eu posso fazer isso? Quadro de dados: area count co tp DE Lake …

98 python pandas dataframe dictionary data-conversion

9

Importar arquivo CSV como um DataFrame do pandas

Qual é a maneira do Python de ler um arquivo CSV em um DataFrame do pandas (que posso usar para operações estatísticas, pode ter colunas com tipos diferentes, etc.)? Meu arquivo CSV "value.txt"tem o seguinte conteúdo: Date,"price","factor_1","factor_2" 2012-06-11,1600.20,1.255,1.548 2012-06-12,1610.02,1.258,1.554 2012-06-13,1618.07,1.249,1.552 2012-06-14,1624.40,1.253,1.556 2012-06-15,1626.15,1.258,1.552 2012-06-16,1626.15,1.263,1.558 2012-06-17,1626.15,1.264,1.572 Em R, leríamos este arquivo usando: …

98 python pandas csv dataframe

Perguntas com a marcação «dataframe»