Geralmente na pesquisa biomédica, não usamos um conjunto de treinamento - apenas aplicamos regressão logística no conjunto de dados completo para ver quais preditores são fatores de risco significativos para o resultado que estamos analisando; ou examinar um preditor de interesse enquanto controla o efeito de outros possíveis preditores no resultado.
Não sei bem o que você quer dizer com valores limite, mas existem vários parâmetros que se pode otimizar: AUC, valores de corte para uma dicotomização de uma variável preditora contínua, valores preditivos positivos e negativos, intervalos de confiança e valores p, taxas de falso positivo e falso negativo. A regressão logística analisa uma população de indivíduos e avalia a força e a direção causal dos fatores de risco que contribuem para o resultado de interesse nessa população. Também é possível "executá-lo ao contrário", por assim dizer, e determinar o risco de um indivíduo para o resultado, dados os fatores de risco que o indivíduo possui. A regressão logística atribui a cada indivíduo um risco do resultado, com base em seus fatores de risco individuais e, por padrão, é 0,5. Se um sujeito ' s a probabilidade de ter o resultado (com base em todos os dados e assuntos em seu modelo) é de 0,5 ou superior, prevê que ele terá o resultado; se abaixo de 0,5, ele prevê que não. Mas você pode ajustar esse nível de corte, por exemplo, para sinalizar mais indivíduos que podem estar em risco de obter o resultado, embora ao preço de ter mais falsos positivos previstos pelo modelo. Você pode ajustar esse nível de corte para otimizar as decisões de triagem, a fim de prever quais indivíduos seriam aconselhados a ter acompanhamento médico adicional, por exemplo; e construir seu valor preditivo positivo, valor preditivo negativo e taxas de falso negativo e falso positivo para um teste de triagem com base no modelo de regressão logística. Você pode desenvolver o modelo na metade do seu conjunto de dados e testá-lo na outra metade, mas não você realmente precisa (e isso reduzirá os dados de "treinamento" pela metade e, assim, reduzirá o poder de encontrar preditores significativos no modelo). Então, sim, você pode "treinar tudo de ponta a ponta". Obviamente, na pesquisa biomédica, você deseja validá-lo em outra população, outro conjunto de dados antes de dizer que seus resultados podem ser generalizados para uma população mais ampla. Outra abordagem é usar uma abordagem do tipo bootstrapping, na qual você executa seu modelo em uma subamostra da população do seu estudo, substitui os sujeitos de volta ao pool e repete com outra amostra várias vezes (geralmente 1000 vezes). Se você obtiver resultados significativos na maioria das vezes prescrita (por exemplo, 95% das vezes), seu modelo poderá ser considerado validado - pelo menos em seus próprios dados. Mas, novamente, quanto menor a população de estudo em que você executa seu modelo, menos provável será que alguns preditores sejam fatores de risco estatisticamente significativos para o resultado. Isto é especialmente verdade para estudos biomédicos com número limitado de participantes.
Usar metade dos seus dados para 'treinar' seu modelo e depois 'validá-lo' na outra metade é um encargo desnecessário. Você não faz isso para testes t ou regressão linear; por que fazê-lo em regressão logística? O máximo que ele fará é permitir que você diga 'sim, funciona', mas se você usar todo o conjunto de dados, poderá determinar isso de qualquer maneira. Dividir seus dados em conjuntos de dados menores corre o risco de não detectar fatores de risco significativos na população do estudo (OU na população de validação) quando eles estão de fato presentes, devido ao pequeno tamanho da amostra, com muitos preditores para o tamanho do estudo e a possibilidade que sua 'amostra de validação' não mostrará associações apenas por acaso. A lógica por trás da abordagem 'treinar e validar' parece ser que, se os fatores de risco que você identifica como significativos não forem fortes o suficiente, eles não serão estatisticamente significativos quando modelados em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. não seja estatisticamente significativo quando modelado em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. não seja estatisticamente significativo quando modelado em uma metade dos dados escolhidos aleatoriamente. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. Mas essa amostra escolhida aleatoriamente pode não mostrar associação apenas por acaso, ou porque é muito pequena para que os fatores de risco sejam estatisticamente significativos. Mas é a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. s a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo. s a magnitude do (s) fator (es) de risco E sua significância estatística que determinam sua importância e, por esse motivo, é melhor usar seu conjunto de dados completo para construir seu modelo. A significância estatística se tornará menos significativa com tamanhos de amostra menores, como acontece com a maioria dos testes estatísticos. Fazer regressão logística é uma arte quase tanto quanto uma ciência estatística. Existem diferentes abordagens para usar e diferentes parâmetros para otimizar, dependendo do desenho do seu estudo.