Eu tenho um conjunto de dados com 19 colunas e cerca de 250k linhas. Eu trabalhei com conjuntos de dados maiores, mas desta vez o Pandas decidiu brincar com meus nervos.
Tentei dividir o conjunto de dados original em 3 subframes com base em algumas regras simples. No entanto, leva muito tempo para executar o código. Cerca de 15 a 20 segundos apenas para a filtragem.
Alguma maneira alternativa de melhorar o desempenho do código?
import pandas as pd
#read dataset
df = pd.read_csv('myData.csv')
#create a dataframe with col1 10 and col2 <= 15
df1 = df[(df.col1 == 10) & (df.col2 <= 15)]
df = df[~df.isin(df1)].dropna()
#create a dataframe with col3 7 and col4 >= 4
df2 = df[(df.col3 == 7) & (df.col4 >= 4)]
df = df[~df.isin(df2)].dropna()
No final, eu tenho os df1, df2, df
quadros de dados com os dados filtrados.