O que é uma dobra de validação cruzada ou essa frase não faz sentido?


9

Entendo o conceito de validação cruzada com dobras k , mas não entendo o que significa "dobra". Citando a partir da página vinculada na wikipedia:

O processo de validação cruzada é repetido k vezes (as dobras)

Isso parece muito vago. A 'dobra' se refere a cada repetição do processo? Ou é um substantivo que se refere ao conjunto de dados de teste de treinamento emparelhado?


2
Confesso que nem sei o que é a validação cruzada, mas esse não é apenas o significado usual em inglês de " fold" que significa " times", como em "Houve um aumento de quatro vezes na violência crime desde a legalização de armas nucleares portáteis ". kk
precisa saber é o seguinte

Esse é um argumento muito bom. no entanto, como você pode ver na resposta, as dobras podem ser usadas para se referir aos dados.
Alex

Sim, embora isso pareça muito com um mal-entendido por um falante não-nativo que é pego de surpresa.
precisa saber é o seguinte

Respostas:


10

A redação é definitivamente estranha lá.

Lembre-se de que a validação cruzada particiona um conjunto de dados em "sub-conjuntos de dados" aproximadamente iguais. Cada um desses "subconjuntos de dados" é chamado de "dobra". validação cruzada fold requer a reajuste de um modelo vezes, omitindo exatamente uma dobra dos dados de cada vez, para que o termo "dobra" também possa ser usado para se referir a cada repetição.KKK

Como existe uma correspondência individual entre dobras e repetições, geralmente não há um problema com essa terminologia negligente. Geralmente, é evidente a partir do contexto em que uso se destina, e outras vezes não faz diferença.


Certo, essa interpretação faz com que cada um dos testes disjuntos faça uma dobra. Assim, os dados de treinamento podem ser referidos como 'dados que não estão na dobra'. Você tem uma referência para isso?
Alex5 /

11
E sim, "out-of-dobra" é um termo válido
shadowtalker

2
o kos modelos às vezes são chamados de modelos substitutos, por exemplo, Braga-Neto UM, Dougherty ER .: A validação cruzada é válida para a classificação de microarranjos de amostras pequenas? Bioinformática. 12 de fevereiro de 2004; 20 (3): 374-80. dx.doi.org/10.1093/bioinformatics/btg419 . "dobras" é frequentemente usado em distinção a uma "execução" (iteração / repetição) da validação cruzada (uma execução consiste emkdobras no "procedimento" significado)
cbeleites infeliz com SX

2
Marcar com +1, mas a frase "dados que não estão dobra" soa muito estranha e @Alex extremamente incerta. Não use.
Ameba

11
Costumo usar "fold" preguiçosamente para significar cada parte do conjunto de dados. Como na "dobra 5 está desequilibrada em comparação com o restante dos dados"
shadowtalker 07/09/16

3

"Dobra" refere-se a uma partição (no significado teórico da palavra) da amostra,S, em um conjunto de treinamento, Tje conjunto de validação, Vj. Isso significa:

  1. TjVj=,
  2. TjVj=S,

(1jk)

Observe que em "clássico" kvalidação cruzada (CV), uma condição adicional é colocada nos conjuntos de validação:

  1. ViVj= (ij)

Por fim, observe que o k no clássico k-volume CV controla o número de vezes que o procedimento de validação de trem é executado, bem como o tamanho dos conjuntos de validação e treinamento: |Vj|1k|S|, portanto.|Tj|k1k|S|


0

Concordo com o OP de que essa terminologia é estranha e confusa. Aqui está minha opinião: falantes nativos de inglês com boa educação estão acostumados a termos como "duplo" ou "triplo", que soam um pouco antiquados, mas ainda são utilizáveis. Criticamente, no entanto, não vemos essas palavras como contendo o substantivo "fold"; "fold" é mais um sufixo aqui, uma construção especial engraçada que é combinada com um número para criar uma variante colorida em "double" ou "triple", etc. Não tem absolutamente nada a ver com o verbo "fold" ou o substantivo "dobra" que pode surgir ao fazer origami e se referir a um pedaço de papel dobrado.

Eu suspeito que a palavra "fold" começou a ser usada como um substantivo que significa "partição" no contexto da validação cruzada k-fold quando um falante / escritor não familiarizado com o inglês ou com a validação cruzada pensou que "k-fold" literalmente significava "fazer k 'dobras' dos dados". É compreensível que alguém chegue a essa conclusão. No entanto, "k-fold" não significa "fazer k 'dobras'" - em vez disso, significa " fazer validação cruzada k vezes ", onde estão implícitos os detalhes de ter que fazer k também partições dos dados.

Pessoalmente, nunca uso "fold" dessa maneira estranha; Eu chamo os segmentos de dados em questão de "partições", e é muito mais claro.

Além disso, o fato de esse uso ter se espalhado pela comunidade não o torna um uso razoável em inglês, IMO. Prefiro uma comunicação direta e clara a inventar e usar um novo jargão confuso.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.