É apenas a agregação de pontos de dados? Ou é a representação dos pontos de dados para diferentes elementos em um formato tabular organizado com valores das diferentes variáveis? Qual a diferença dos dados brutos?
É apenas a agregação de pontos de dados? Ou é a representação dos pontos de dados para diferentes elementos em um formato tabular organizado com valores das diferentes variáveis? Qual a diferença dos dados brutos?
Respostas:
Na minha experiência, "conjunto de dados" (ou "conjunto de dados") é um termo informal que se refere a uma coleção de dados. Geralmente, um conjunto de dados contém mais de uma variável e diz respeito a um único tópico; é provável que diga respeito a uma única amostra.
Um erro que muitas vezes vejo escritores de perguntas da Validação Cruzada cometem é usar "conjunto de dados" como sinônimo de "variável" ou "vetor".
Eu acho que a Wikipedia faz um trabalho decente em defini-lo:
Geralmente, um conjunto de dados corresponde ao conteúdo de uma única tabela de banco de dados ou de uma única matriz de dados estatísticos, onde cada coluna da tabela representa uma variável específica e cada linha corresponde a um determinado membro do conjunto de dados em questão. O conjunto de dados lista valores para cada uma das variáveis, como altura e peso de um objeto, para cada membro do conjunto de dados. Cada valor é conhecido como dado. O conjunto de dados pode compreender dados para um ou mais membros, correspondendo ao número de linhas.
O termo conjunto de dados também pode ser usado de maneira mais vaga, para se referir aos dados em uma coleção de tabelas intimamente relacionadas, correspondendo a um experimento ou evento específico. Um exemplo desse tipo são os conjuntos de dados coletados pelas agências espaciais que realizam experimentos com instrumentos a bordo de sondas espaciais.
Na disciplina de dados abertos, conjunto de dados é a unidade para medir as informações liberadas em um repositório público de dados abertos. O portal europeu de dados abertos agrega mais de meio milhão de conjuntos de dados. Nesse campo, outras definições foram propostas, mas atualmente não há uma oficial. Alguns outros problemas (fontes de dados em tempo real, conjuntos de dados não relacionais etc.) aumentam a dificuldade de chegar a um consenso sobre isso.
Como você pode ver, o termo é um tanto vago.
Eu acho que você pode precisar definir o ponto de dados antes de definir o conjunto de dados : por que um é primitivo e não precisa de definição, mas não vice-versa?
Pelo menos duas definições fazem sentido para mim:
Uma ou mais observações (casos, registros, linhas) para uma ou mais variáveis (campos. Colunas).
Tudo o que é armazenado como dados em um arquivo legível por um programa de escolha.
O layout tabular é comum, mas não acho que faça parte de nenhuma definição; como os dados são armazenados pode ser praticamente importante, naturalmente.
PS A palavra "formato" está tão sobrecarregada que, para mim, é melhor evitar a menos que seja especificado sem ambiguidade. Eu já vi isso usado para
Texto geral ou específico ou formato de arquivo binário
Estrutura de dados, por exemplo, tabular ou outra
Armazenamento de dados ou tipos de variáveis, por exemplo, bit, número inteiro, real, caractere
Formato de exibição que controla a apresentação, por exemplo, detalhes sobre o número de casas decimais; exibição decimal, hexadecimal ou binária.
Já existem boas respostas aqui e acho que não posso aprofundar mais do que Nick Cox ou Franck Dernoncourt na questão de se "conjunto de dados" se refere à coleta conceitual de dados relacionados ou à organização específica desses dados, por exemplo, em uma tabela / matriz ou um arquivo legível por computador. A extração de Franck menciona casos extremos como dados coletados continuamente ou dados espalhados por várias tabelas, que vale a pena ter em mente se você supusesse que haveria uma definição simples. (Nem todo software de estatística pode lidar com isso, mas é muito fácil imaginar um caso em que os dados são armazenados em um banco de dados relacional com várias tabelas. O banco de dados inteiro é um "conjunto de dados" único?)
Uma coisa que acrescentarei é que os conjuntos de dados geralmente não são conjuntos, no sentido matemático! O Sensu stricto define que um conjunto contém um objeto ou não, mas não pode conter mais de uma cópia desse objeto. Se eu jogar um dado oito vezes e marcar 1, 4, 3, 5, 5, 4, 6, 4, o conjunto de pontuações roladas será apenas {1, 3, 4, 5, 6}. Note que os elementos podem estar em qualquer ordem, acabei de escrevê-los com valor crescente, mas o conjunto {5, 4, 1, 6, 3} é matematicamente igual a ele, por exemplo. Isso não é o que geralmente queremos dizer com conjunto de dados!
Mas os vetores são apenas para gravar uma variável - para várias, pode ser mais conveniente usar uma matriz para tabular com a ordem preservada. Para situações mais sofisticadas, como medir uma propriedade de uma grade tridimensional de voxels ao longo do tempo, você pode até organizar os dados em um tensor (veja, por exemplo, esta pergunta ).
Mas observe que conceitualmente um multiset pode ser suficiente na maioria das situações simples, mesmo que seja inconveniente para fins práticos. Se eu jogasse uma moeda simultaneamente ao rolar o dado e quisesse registrar os dois resultados juntos, poderia usar um multiset como {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} em vez de uma matriz. Um conjunto comum não será suficiente, pois não conta a multiplicidade de (4, H), por exemplo.