O que é a verdade do solo

No contexto do Machine Learning , vi o termo Ground Truth usado muito. Pesquisei bastante e encontrei a seguinte definição na Wikipedia :

No aprendizado de máquina, o termo "verdade fundamental" refere-se à precisão da classificação do conjunto de treinamento para técnicas de aprendizado supervisionado. Isso é usado em modelos estatísticos para provar ou refutar hipóteses de pesquisa. O termo "truthing em terra" refere-se ao processo de coleta dos dados objetivos (prováveis) adequados para este teste. Compare com o padrão ouro.

A filtragem bayesiana de spam é um exemplo comum de aprendizado supervisionado. Nesse sistema, o algoritmo é ensinado manualmente as diferenças entre spam e não spam. Isso depende da verdade básica das mensagens usadas para treinar o algoritmo - imprecisões na verdade básica se correlacionam com imprecisões nos veredictos de spam / não spam resultantes.

O ponto é que eu realmente não consigo entender o que isso significa. Esse rótulo é usado para cada objeto de dados ou a função de destino que fornece um rótulo para cada objeto de dados ou talvez algo mais?

machine-learning neural-network deep-learning

— meios de comunicação
fonte

Respostas:

A verdade básica é o que você mediu para sua variável-alvo nos exemplos de treinamento e teste.

Quase o tempo todo, você pode tratá-lo com segurança da mesma forma que o rótulo.

Em alguns casos, não é exatamente o mesmo que o rótulo. Por exemplo, se você aumenta seu conjunto de dados, há uma diferença sutil entre a verdade básica (suas medidas reais) e como os exemplos aumentados se relacionam aos rótulos que você atribuiu. No entanto, essa distinção geralmente não é um problema.

A verdade básica pode estar errada. É uma medida e pode haver erros nela. Em alguns cenários de BC, também pode ser uma medida subjetiva, onde é difícil definir uma verdade objetiva subjacente - por exemplo, opinião ou análise de especialistas, que você espera automatizar. Qualquer modelo de ML que você treinar será limitado pela qualidade da verdade básica usada para treiná-lo e testá-lo, e isso faz parte da explicação na citação da Wikipedia. É também por isso que os artigos publicados sobre BC devem incluir descrições completas de como os dados foram coletados.

— Neil Slater
fonte

Durante o treinamento, o GT (por exemplo, problemas de segmentação) pode ser modificado ou criado, devido às informações obtidas (por exemplo, nos mapas de pontuação) dos recursos?

— Alex

@ Alex: Normalmente não. Pode haver algumas circunstâncias em que uma saída revisada ou um processo semi-automatizado produz a verdade fundamental para o próximo algoritmo em um pipeline. No entanto, se você estiver se referindo a um algoritmo que revisa seus próprios destinos por meio de alguma regra, isso geralmente não é considerado uma nova verdade básica - em vez disso, a verdade básica seria as segmentações originais fornecidas para o treinamento. Qualquer refinamento automatizado inteligente seria parte do modelo.

— Neil Slater

Um refinamento com interação humana, ou os referidos dados originais sem imagem (por exemplo, algumas imagens de origem são geradas usando o modelo 3D, para criar uma segmentação "verdadeira" muito melhor), pode ser uma nova verdade. Embora você talvez deseje separar a idéia de verdade básica da geração 1 usada para construir o primeiro modelo da verdade básica da geração 2 que passou por uma iteração e usada para construir um segundo modelo, mesmo que o segundo modelo tenha a mesma arquitetura treinado em feedback.

— Neil Slater

'treinado em feedback' - próximo, mas não exatamente. Se você viu o modelo FCN, a última camada é o mapa de pontuação, que é conectado à função de perda de softmax do log junto com o mapa gt. O que faço é pegar o mapa de pontuação, extrair alguns dados dele (por exemplo, número de blobs binários argmax) e (de alguma forma) modificar a máscara gt antes de conectá-lo na função de perda. Quão legítimo é isso?

— 21418 Alex

@ Alex: Isso faz parte do seu modelo, e não uma nova verdade. A menos que você decida, arbitrariamente, que o objetivo de um novo modelo é aprender sua função combinada. Nesse caso, é a verdade básica do novo modelo - no entanto, você definitivamente deve observar a fonte complexa desses dados, pois eles foram modificados a partir da medição original de maneira automatizada.

— Neil Slater

Verdade básica: essa é a realidade que você deseja que seu modelo preveja.

Pode haver algum ruído, mas você deseja que seu modelo aprenda o padrão subjacente nos dados que estão causando essa verdade básica. Praticamente, seu modelo nunca será capaz de prever a verdade do solo, pois a verdade do solo também terá algum ruído e nenhum modelo fornece cem por cento de precisão, mas você deseja que o seu modelo esteja o mais próximo possível.

— Vivek Khetan
fonte