Diferença entre dados ausentes e dados esparsos em algoritmos de aprendizado de máquina

Quais são as principais diferenças entre dados esparsos e dados ausentes? E como isso influencia o aprendizado de máquina? Mais especificamente, que efeito os dados esparsos e ausentes têm sobre algoritmos de classificação e algoritmos de regressão (números preditores). Estou falando de uma situação em que a porcentagem de dados ausentes é significativa e não podemos descartar as linhas que contêm dados ausentes.

— dev cansado e entediado
fonte

Dados esparsos significa que muitos dos valores são zero, mas você sabe que eles são zero. Dados ausentes significam que você não sabe quais são alguns ou muitos dos valores.

— Anna SDTC

Obrigado. Era o que eu também pensava, mas queria confirmar. Além disso, conforme mencionado na pergunta, gostaria de saber como, em geral, esses tipos conjuntos de dados são tratadas em problemas de aprendizado de máquina ..

— cansado e entediado dev

Eu acho que sua pergunta é um pouco vaga. O "aprendizado de máquina" inclui uma ampla variedade de métodos e ferramentas; portanto, a resposta depende do que você tem ou do que deseja fazer. Aqui eles discutir alguns métodos para a manipulação de dados em falta: stats.stackexchange.com/questions/103500/...

— Anna SDTC

Obrigado. Estou ciente da ampla gama de ferramentas e tipos de algoritmos de ml. Mas queria saber se existem abordagens gerais.

— cansado e entediado dev

Para facilitar a compreensão, descreverei isso usando um exemplo. Digamos que você esteja coletando dados de um dispositivo com 12 sensores. E você coletou dados por 10 dias.

Os dados que você coletou são os seguintes:

Isso é chamado de dados esparsos porque a maioria das saídas do sensor é zero. O que significa que esses sensores estão funcionando corretamente, mas a leitura real é zero. Embora essa matriz possua dados de alta dimensão (12 eixos), pode-se dizer que contém menos informações.

Digamos que 2 sensores do seu dispositivo estejam com defeito.
Seus dados serão como:

Nesse caso, você pode ver que não pode usar dados do Sensor1 e Sensor6. Você deve preencher os dados manualmente sem afetar os resultados ou refazer o experimento.

— Lahiru Karunaratne
fonte