Eu tenho quadros 10 dados pyspark.sql.dataframe.DataFrame
, obtidos a partir randomSplit
de (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)
agora eu quero participar 9 td
é em um único quadro de dados, como devo fazer isso?
Eu já tentei com unionAll
, mas essa função aceita apenas dois argumentos.
td1_2 = td1.unionAll(td2)
# this is working fine
td1_2_3 = td1.unionAll(td2, td3)
# error TypeError: unionAll() takes exactly 2 arguments (3 given)
Existe alguma maneira de combinar mais de dois quadros de dados em linhas?
O objetivo é fazer 10 vezes a validação cruzada manualmente, sem usar o CrossValidator
método PySpark . Portanto, levo 9 para o treinamento e 1 para os dados de teste e depois repetirei para outras combinações.