Eu tenho dois conjuntos de dados A e B que são exatamente iguais em termos de número de colunas, nome das colunas e valores. A única diferença é a ordem dessas colunas. Treino o modelo LightGBM em cada um dos dois conjuntos de dados com as seguintes etapas
- Divida cada conjunto de dados em treinamento e teste (use a mesma semente e proporção aleatória para A e B)
- Deixe os hiperparâmetros como praticamente o padrão
- Defina um estado aleatório como um número fixo (para reprodução)
- Ajuste o learning_rate usando uma Pesquisa em grade
- Treine um modelo LightGBM no conjunto de treinamento e teste-o no conjunto de testes
- A taxa de aprendizado com o melhor desempenho no conjunto de testes será escolhida
Os modelos de saída nos dois conjuntos de dados são muito diferentes, o que me faz pensar que a ordem das colunas afeta o desempenho do treinamento do modelo usando o LightGBM.
Você sabe por que esse é o caso?