Sou novato tentando entender o OLAP e tenho algumas perguntas.
- Pergunta 1: Um cubo OLAP pode armazenar medianas, modos e percentis?
- Pergunta 2: uma consulta MDX escrita pelo usuário pode retornar um resumo dos dados no nível da linha? (ex:% de transações> US $ 100). Ou o designer do cubo deve adicioná-lo ao cubo?
- Pergunta 3: Algum produto OLAP agora fornece mecanismos para acessar dados no nível da linha? Qual?
Nosso departamento de TI está procurando feedback sobre que tipo de problemas estamos enfrentando com um cubo ROLAP do MS Analsis Services. Não temos acesso ao banco de dados relacional por trás dele e precisamos executar cálculos que não estão disponíveis no momento como medidas no cubo.
Deixe-me ver se eu tenho esse direito.
- Um cubo pode fornecer estatísticas para contagens, médias, proporções e desvios padrão.
- Se uma estatística específica não tiver sido atendida em uma medida fornecida pelo designer do cubo, podemos escrever uma consulta MDX para obtê-la? Ou eles precisam alterar o cubo para pré-calculá-lo a partir dos dados no nível da linha?
- Um cubo não pode fornecer estatísticas como medianas, modos ou percentis, porque essas estatísticas não se agregam adequadamente.
Estou lendo The Grammar of Graphics, de Leland Wilkinson, e em seu capítulo sobre Data Mining e OLAP, ele diz
Essas [operações de cubo] funcionam bem com estatísticas como contagens, médias, proporções e desvios padrão. Agregações simples sobre subclasses podem ser calculadas operando-se em somas, somas de quadrados e outros termos que são combinados em funções lineares para produzir estatísticas resumidas básicas.
Eles não funcionam corretamente com estatísticas como mediana, modo e percentis, porque o agregado dessas estatísticas não é o estatístico de seus agregados. A mediana de medianas não é a mediana do agregado, por exemplo.
Ele continua acrescentando:
Um modelo ROLAP mais sofisticado surgiu recentemente, no entanto. É possível, através de várias tecnologias, dar aos algoritmos estatísticos acesso a dados brutos através do modelo relacional em tempo real. Essa abordagem é mais promissora do que as agregações rígidas oferecidas por estruturas como cubos de dados.
Na forma mais elegante dessa arquitetura, os aplicativos podem solicitar conexões remotas para fornecer informações sobre seus métodos de tratamento de dados e executar ações adequadas, dependendo das informações retornadas. Dessa forma, a arquitetura de componentes pode alcançar a promessa real da computação distribuída: design e execução independentes do site, sistema operacional ou idioma.
Isso foi escrito por volta de 2005. Alguém conhece os produtos que empregam essa metodologia para permitir o acesso a dados em nível de linha?