Eu tenho um despejo de dados csv que é um achatamento de tabelas relacionadas de um banco de dados sql. Então, para simplificar, fica assim.
| col1 | col2 | col3 | col4 |
+------+------+------+------+
| A | Ad | B | B1 |
| A | Ad | B | B2 |
| A | Ad | B | B3 |
| A | Ad | C | C1 |
| A | Ad | C | C2 |
| X | Xx | D | D1 |
| X | Xx | D | D2 |
| X | Xx | E | E3 |
Nesta tabela, preciso gerar vários gráficos e pivôs a partir de subconjuntos desses dados
então eu gostaria de gerar (link) para esses dados e criar tabelas que representam os conjuntos consultáveis que eu estou procurando, por exemplo.
| col1 | col2 |
+------+------+
| A | Ad |
| X | Xx |
e
| col1 | col2 | col3 |
+------+------+------+
| A | Ad | B |
| A | Ad | C |
| X | Xx | D |
| X | Xx | E |
principalmente para que eu possa fazer contagens das combinações únicas dos dados achatados.
É importante que, quando atualizo os dados da fonte de dados, essas tabelas sejam atualizadas com precisão.
Então, como faço isso?
EDITAR
Suas respostas foram úteis, parece que minha pergunta não foi boa o suficiente
para a primeira tabela, eu realmente quero produzir isso
| col1 | col2 | count
+------+------+------
| A | Ad | 1
| X | Xx | 1
e o segundo
| col1 | col2 | col3 | count
+------+------+------+------
| A | Ad | B | 1
| A | Ad | C | 1
| X | Xx | D | 1
| X | Xx | E | 1
Portanto, as contagens refletem a contagem de registros distintos em um determinado nível, não a soma de todas as linhas.
Preciso responder perguntas como "qual é o total de itens distintos em col1"
Também preciso responder a esta pergunta "show count of col3 for col1"
Espero que me pedem para fazer gráficos e apresentar os dados em vários níveis normalizados também.
Espero que isso seja mais preciso para você. Obrigado pela ajuda até agora