Programação dataframe

10

Divisão de dicionário / lista dentro de uma coluna do Pandas em colunas separadas

Tenho dados salvos em um banco de dados postgreSQL. Estou consultando esses dados usando Python2.7 e transformando-os em um DataFrame do Pandas. No entanto, a última coluna desse quadro de dados possui um dicionário (ou lista?) De valores. O DataFrame fica assim: [1] df Station ID Pollutants 8809 {"a": "46", …

146 python pandas dictionary dataframe

2

Selecionar linhas no pandas MultiIndex DataFrame

Quais são as maneiras mais comuns dos pandas de selecionar / filtrar linhas de um quadro de dados cujo índice é um MultiIndex ? Fatiar com base em um único valor / rótulo Fatiar com base em vários rótulos de um ou mais níveis Filtrando condições e expressões booleanas Quais …

145 python pandas dataframe slice multi-index

7

Pandas dataframe fillna () apenas algumas colunas no lugar

Eu estou tentando preencher nenhum valor em um dataframe do Pandas com 0 para apenas alguns subconjuntos de colunas. Quando eu faço: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df A saída: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 …

144 python pandas dataframe

7

Como descobrir quais colunas contêm qualquer valor de NaN no quadro de dados do Pandas

Dado um quadro de dados de pandas contendo possíveis valores de NaN espalhados aqui e ali: Pergunta: Como determino quais colunas contêm valores de NaN? Em particular, posso obter uma lista dos nomes de colunas que contêm NaNs?

144 python pandas dataframe nan

8

Como selecionar a primeira linha de cada grupo?

Eu tenho um DataFrame gerado da seguinte maneira: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Os resultados são parecidos com: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| …

143 sql scala apache-spark dataframe apache-spark-sql

6

Como obter a primeira coluna de um DataFrame do pandas como uma série?

Eu tentei: x=pandas.DataFrame(...) s = x.take([0], axis=1) E sobtém um DataFrame, não uma Série.

142 python dataframe pandas series

14

Determinar o número de valores de NA em uma coluna

Eu quero contar o número de NAvalores em uma coluna de quadro de dados. Digamos que meu quadro de dados seja chamado dfe o nome da coluna que estou considerando seja col. A maneira como inventei é a seguinte: sapply(df$col, function(x) sum(length(which(is.na(x))))) Essa é uma maneira boa / mais eficiente …

142 r dataframe

8

Renomear índice do DataFrame do Pandas

Eu tenho um arquivo csv sem cabeçalho, com um índice DateTime. Quero renomear o nome do índice e da coluna, mas com df.rename () apenas o nome da coluna é renomeado. Erro? Estou na versão 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 …

142 python pandas dataframe

9

Como substituir os NaNs por valores anteriores no pandas DataFrame?

Suponha que eu tenha um DataFrame com alguns NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 O que eu preciso fazer é substituir …

140 python python-3.x pandas dataframe nan

3

Como salvar um data.frame no R?

Criei um data.frame em R que não é muito grande, mas leva algum tempo para ser construído. Gostaria de salvá-lo como um arquivo, que posso abrir novamente no R?

137 r dataframe

2

Como adicionar uma coluna constante em um Spark DataFrame?

Eu quero adicionar uma coluna em um DataFramecom algum valor arbitrário (que é o mesmo para cada linha). Eu recebo um erro quando uso da withColumnseguinte maneira: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', …

137 python apache-spark dataframe pyspark apache-spark-sql

7

Encontre a coluna cujo nome contém uma sequência específica

Eu tenho um quadro de dados com nomes de colunas e quero encontrar o que contém uma determinada sequência de caracteres, mas não corresponde exatamente a ela. Estou procurando 'spike'em nomes de coluna como 'spike-2', 'hey spike', 'spiked-in'(o'spike' parte é sempre contínua). Desejo que o nome da coluna seja retornado …

137 python python-3.x string pandas dataframe

5

Dataframe do Pandas obtém a primeira linha de cada grupo

Eu tenho pandas DataFramecomo seguir. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Quero agrupar isso por ["id", "value"] e obter a primeira linha de cada grupo. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first …

137 python pandas dataframe

6

colunas de dataframe do pandas dimensionadas com o sklearn

Eu tenho um dataframe de pandas com colunas de tipo misto e gostaria de aplicar o min_max_scaler do sklearn a algumas das colunas. Idealmente, eu gostaria de fazer essas transformações no local, mas ainda não descobri uma maneira de fazer isso. Eu escrevi o seguinte código que funciona: import pandas …

137 python pandas scikit-learn dataframe

4

Qual é a maneira mais eficiente de criar um dicionário de duas colunas de Dataframe de pandas?

Qual é a maneira mais eficiente de organizar o seguinte DataFrame dos pandas: data = Position Letter 1 a 2 b 3 c 4 d 5 e em um dicionário como alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

136 python dictionary pandas dataframe

Perguntas com a marcação «dataframe»