Perguntas com a marcação «dataframe»

Um quadro de dados é uma estrutura de dados tabular. Geralmente, ele contém dados em que linhas são observações e colunas são variáveis ​​de vários tipos. Enquanto "quadro de dados" ou "quadro de dados" é o termo usado para esse conceito em várias línguas (R, Apache Spark, deedle, Maple, a biblioteca de pandas em Python e a biblioteca de DataFrames em Julia), "tabela" é o termo usado em MATLAB e SQL.



7
Pandas dataframe fillna () apenas algumas colunas no lugar
Eu estou tentando preencher nenhum valor em um dataframe do Pandas com 0 para apenas alguns subconjuntos de colunas. Quando eu faço: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df A saída: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 …
144 python  pandas  dataframe 


8
Como selecionar a primeira linha de cada grupo?
Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …


14
Determinar o número de valores de NA em uma coluna
Eu quero contar o número de NAvalores em uma coluna de quadro de dados. Digamos que meu quadro de dados seja chamado dfe o nome da coluna que estou considerando seja col. A maneira como inventei é a seguinte: sapply(df$col, function(x) sum(length(which(is.na(x))))) Essa é uma maneira boa / mais eficiente …
142 r  dataframe 

8
Renomear índice do DataFrame do Pandas
Eu tenho um arquivo csv sem cabeçalho, com um índice DateTime. Quero renomear o nome do índice e da coluna, mas com df.rename () apenas o nome da coluna é renomeado. Erro? Estou na versão 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 …
142 python  pandas  dataframe 


3
Como salvar um data.frame no R?
Criei um data.frame em R que não é muito grande, mas leva algum tempo para ser construído. Gostaria de salvá-lo como um arquivo, que posso abrir novamente no R?
137 r  dataframe 

2
Como adicionar uma coluna constante em um Spark DataFrame?
Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', …


5
Dataframe do Pandas obtém a primeira linha de cada grupo
Eu tenho pandas DataFramecomo seguir. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Quero agrupar isso por ["id", "value"] e obter a primeira linha de cada grupo. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first …
137 python  pandas  dataframe 



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.