Qual é a diferença entre dados discretos e dados contínuos?
Qual é a diferença entre dados discretos e dados contínuos?
Respostas:
Dados discretos podem ter apenas valores específicos. Pode haver um número infinito desses valores, mas cada um é distinto e não há uma área cinza no meio. Dados discretos podem ser numéricos - como números de maçãs -, mas também podem ser categóricos - como vermelho ou azul, masculino ou feminino, bom ou ruim.
Os dados contínuos não estão restritos a valores separados definidos, mas podem ocupar qualquer valor em um intervalo contínuo. Entre dois valores de dados contínuos, pode haver um número infinito de outros. Os dados contínuos são sempre essencialmente numéricos.
Às vezes, faz sentido tratar dados numéricos que são adequadamente de um tipo como sendo do outro. Por exemplo, algo como a altura é contínua, mas geralmente não nos importamos muito com pequenas diferenças e, em vez disso, agrupamos as alturas em várias caixas discretas . Por outro lado, se estivermos contando grandes quantidades de alguma entidade discreta - grãos de arroz, cupins ou moedas de um centavo na economia -, podemos optar por não pensar em 2.000.006 e 2.000.008 como valores crucialmente diferentes, mas como pontos próximos em um continuum aproximado.
Às vezes, também pode ser útil tratar dados numéricos como categóricos, por exemplo: abaixo do peso, normal, obeso. Isso geralmente é apenas outro tipo de escaneamento.
Raramente faz sentido considerar dados categóricos como contínuos.
Os dados são sempre discretos. Dada uma amostra de n
valores em uma variável, o número máximo de valores distintos que a variável pode obter é igual a n
. Veja esta citação
Todos os espaços de amostra reais são discretos e todas as variáveis aleatórias observáveis têm distribuições discretas. A distribuição contínua é uma construção matemática, adequada para tratamento matemático, mas não é praticamente observável. EJG Pitman (1979, p. 1).
Supõe-se que os dados de uma variável sejam extraídos de uma variável aleatória. A variável aleatória é contínua em um intervalo, se houver um número infinito de valores possíveis que a variável pode obter entre dois pontos diferentes no intervalo. Por exemplo, altura, peso e tempo geralmente são considerados contínuos. Obviamente, qualquer medição dessas variáveis será finitamente precisa e, em certo sentido, discreta.
É útil distinguir entre
variáveis discretas ordenadas (ie ordinais), não ordenadas (nominais) e binárias.
Alguns livros introdutórios confundem uma variável contínua com uma variável numérica. Por exemplo, uma pontuação em um jogo de computador é discreta, embora seja numérica.
Alguns livros introdutórios confundem uma variável de proporção com variáveis contínuas. Uma variável de contagem é uma variável de proporção, mas não é contínua.
Na prática real, uma variável é frequentemente tratada como contínua quando pode assumir um número suficientemente grande de valores diferentes.
As temperaturas são contínuas. Pode ser 23 graus, 23,1 graus, 23,100004 graus.
O sexo é discreto. Você só pode ser homem ou mulher (de qualquer maneira, no pensamento clássico). Algo que você pode representar com um número inteiro como 1, 2 etc.
A diferença é importante, pois muitos algoritmos estatísticos e de mineração de dados podem lidar com um tipo, mas não com o outro. Por exemplo, em regressão regular, o Y deve ser contínuo. Na regressão logística, o Y é discreto.
Os dados discretos podem receber apenas determinados valores.
Exemplo: o número de alunos em uma turma (você não pode ter meio aluno).
Dados contínuos são dados que podem assumir qualquer valor (dentro de um intervalo)
Exemplos:
No caso do banco de dados, sempre armazenaríamos os dados de forma discreta, mesmo que a natureza dos dados seja contínua. Por que devo enfatizar a natureza dos dados? Devemos levar a distribuição de dados que possam nos ajudar a analisar os dados. Se a natureza dos dados for contínua, sugiro que você os use por análise contínua.
Tomemos um exemplo de contínuo e discreto: MP3. Mesmo o tipo de "som" é analogia, se armazenado em formato digital. Devemos analisá-lo sempre de maneira analogia.
Por um lado, de um ponto de vista prático, concordo com a resposta de Jeromy Anglim. No final, estamos lidando na maioria das vezes com variáveis discretas - embora, do ponto de vista teórico, sejam contínuas - e isso tenha um impacto real, por exemplo, na classificação. Lembre-se do artigo de Strobl, indicando que as florestas aleatórias são influenciadas por variáveis com vários pontos de corte (maior precisão, mas natureza potencialmente semelhante). Da minha experiência pessoal, as redes neurais probabilísticas também podem apresentar um viés quando as variáveis apresentam uma precisão diferente, a menos que sejam do mesmo tipo (isto é, contínuas). Por outro lado, do ponto de vista teórico, a classificação clássica (por exemplo, contínua, discreta, nominal etc.) é, IMHO, correta. De acordo, acho que o nome da fonte do artigo de Quinlan descrevendo o algoritmo M5, que é um 'regressor', é uma ótima opção. Portanto, a definição e as implicações de contínuo versus discreto são relevantes, dependendo do 'ambiente'.
Refs:
Quinlan JR (1992). Aprendendo com aulas contínuas. In: A 5ª Conferência Conjunta Australiana sobre IA. Sydney (Austrália), 343-348.
Strobl C., Boulesteix A.-L., Zeileis A., & Hothorn T. (2007). Viés em medidas aleatórias de importância variável da floresta: ilustrações, fontes e uma solução. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
Dados discretos assumem valores específicos, enquanto dados contínuos não são restritos a valores separados.
Os dados discretos são distintos e não há uma área cinza no meio, enquanto os dados contínuos ocupam qualquer valor acima de um valor contínuo.
Dados discretos Eles podem assumir valores específicos. Eles são numéricos.
Dados discretos podem assumir apenas valores inteiros, enquanto dados contínuos podem assumir qualquer valor. Por exemplo, o número de pacientes com câncer atendidos por um hospital a cada ano é discreto, mas seu peso é contínuo. Alguns dados são contínuos, mas medidos de maneira discreta, por exemplo, sua idade. É comum relatar sua idade como, por exemplo, 31.
Dados discretos falam perticularmente sobre os valores finitos e dados contínuos falam sobre valores ifinitos .....