Tenho um pandas
quadro de dados e gostaria de prever os valores da coluna A a partir dos valores das colunas B e C. Aqui está um exemplo de brinquedo:
import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50],
"B": [20, 30, 10, 40, 50],
"C": [32, 234, 23, 23, 42523]})
Idealmente, eu teria algo como, ols(A ~ B + C, data = df)
mas quando vejo os exemplos das bibliotecas de algoritmos scikit-learn
, parece que ele alimenta os dados para o modelo com uma lista de linhas em vez de colunas. Isso exigiria que eu reformatasse os dados em listas dentro de listas, o que parece anular o propósito de usar os pandas em primeiro lugar. Qual é a maneira mais pítônica de executar uma regressão OLS (ou qualquer algoritmo de aprendizado de máquina de forma mais geral) em dados em um quadro de dados do pandas?
formula
, eu acidentalmente digiteiformulas
e recebi um erro estranho:TypeError: from_formula() takes at least 3 arguments (2 given)