Quero definir os dtypes de várias colunas em pd.Dataframe(tenho um arquivo que tive que analisar manualmente em uma lista de listas, pois o arquivo não era acessível pd.read_csv)
import pandas as pd
print pd.DataFrame([['a','1'],['b','2']],
dtype={'x':'object','y':'int'},
columns=['x','y'])
eu recebo
ValueError: entry not a 2- or 3- tuple
A única maneira de defini-los é percorrendo cada variável de coluna e reformulando com astype.
dtypes = {'x':'object','y':'int'}
mydata = pd.DataFrame([['a','1'],['b','2']],
columns=['x','y'])
for c in mydata.columns:
mydata[c] = mydata[c].astype(dtypes[c])
print mydata['y'].dtype #=> int64
Existe uma maneira melhor?
df = pd.DataFrame([['a','1'],['b','2']], dtype='int', columns=['x','y'])"funciona" ... mas: s