Uma sólida formação em matemática é um requisito total para o ML? - uma resposta e alguma especulação para ML conceituada como sendo estatística ;-)
Por volta de 1990, eu esperava que a álgebra computacional ajudasse, acho que é, mas é bastante limitada. Mas certamente ajuda a acelerar o aprendizado de matemática (menos necessidade de desenvolver habilidades de manipulação pela prática ou tentar sobreviver apenas com a capacidade de fazer os exercícios simples). Eu achei a Álgebra Linear de Fred Szabo com o Mathematica um excelente exemplo disso (mas eu já havia feito um curso de álgebra linear em nível de teoria avançada).
Trabalho desde 1988 (Utilizando métodos intensivos em computador para "concretizar" teoremas e princípios da estatística - precisamente) para tornar a resposta não ou pelo menos não necessária (para estatísticas). Seremos sempre capazes de entender mais rapidamente e de maneira mais geral, com habilidades e conhecimentos matemáticos adicionais. Acho que estou começando a me aproximar, mas é preciso uma representação manipulável dos modelos geradores de probabilidade e inferência que sejam válidos e úteis para mais do que apenas problemas com brinquedos.
Devo tentar preencher os espaços em branco da minha matemática antes de continuar com o ML?
Esse é um esforço árduo - no MHO, quase todo mundo que entende estatística chegou lá por estar muito confortável em manipular as representações matemáticas padrão e, especialmente, não tão padronizadas, de modelos geradores de probabilidade e caracterizações matemáticas de inferência (o maior x% dos Phds de estatística matemática). Portanto, não é apenas aprender o básico, mas estar realmente confortável com a matemática. (Como um aparte, para mim, a Teoria de Fourier era essencial.)
Por que essas representações são difíceis (mesmo com muita matemática)?
Gerd Gigerenzer estabeleceu praticamente que não há desafio com a simples doença positiva / negativa, dado o problema positivo / negativo do teste usando frequências naturais ”. Uma referência da questão vinculada parece fazer bom uso disso http://www.autonlab.org/tutorials/prob18.pdf
Por que isso é difícil de generalizar?
Para testes k (repetidos e ou diferentes) - 2 ^ k
Para testes que aceitam valores v - v ^ k
Assim, para binário desconhecido - 2 * v ^ k probabilidades de caminho de amostra
Para p múltiplas incógnitas binárias 2 ^ p * v ^ k
Para p múltiplas incógnitas racionais Q ^ p * v ^ k
Passa-se rapidamente para a matemática com infinitos contáveis e incontáveis para lidar com isso, o que mesmo com o conhecimento matemático leva a muitos mal-entendidos e aparentes paradoxos (por exemplo, o paradoxo de Borel?)
Além disso, existem mal-entendidos perigosos lineares e não-lineares (por exemplo, perigos ocultos da especificação de antecedentes não informativos Winbugs e outros MCMC sem informações para distribuição prévia ) e interações e efeitos aleatórios, etc.