Estatísticas e Big Data machine-learning

2

Por que Adaboost com árvores de decisão?

Eu tenho lido um pouco sobre o aumento de algoritmos para tarefas de classificação e o Adaboost em particular. Entendo que o objetivo do Adaboost é levar vários "alunos fracos" e, por meio de um conjunto de iterações sobre dados de treinamento, forçar os classificadores a aprender a prever as …

10 machine-learning classification algorithms boosting

2

Como escolher os tamanhos de conjunto de treinamento, validação cruzada e teste para pequenos dados de tamanho de amostra?

Suponha que eu tenha um tamanho pequeno de amostra, por exemplo, N = 100 e duas classes. Como devo escolher os tamanhos de treinamento, validação cruzada e conjunto de testes para aprendizado de máquina? Eu escolheria intuitivamente Tamanho do conjunto de treinamento como 50 Conjunto de validação cruzada tamanho 25 …

10 machine-learning sampling svm cross-validation sample-size

1

Interpretação da área sob a curva PR

Atualmente, estou comparando três métodos e tenho a Precisão, auROC e auPR como métricas. E eu tenho os seguintes resultados: Método A - acc: 0,75, auROC: 0,75, auPR: 0,45 Método B - acc: 0,65, auROC: 0,55, auPR: 0,40 Método C - acc: 0,55, auROC: 0,70, auPR: 0,65 Eu tenho um …

10 machine-learning roc precision-recall

2

Quais são as boas métricas para avaliar a qualidade de um ajuste de PCA, a fim de selecionar o número de componentes?

Qual é uma boa métrica para avaliar a qualidade da análise de componentes principais (PCA)? Eu executei esse algoritmo em um conjunto de dados. Meu objetivo era reduzir o número de recursos (a informação era muito redundante). Sei que a porcentagem de variação mantida é um bom indicador da quantidade …

10 machine-learning pca data-mining information-theory

2

Detecção de anomalias: qual algoritmo usar?

Contexto: estou desenvolvendo um sistema que analisa dados clínicos para filtrar dados implausíveis que podem ser erros de digitação. O que eu fiz até agora: Para quantificar a plausibilidade, minha tentativa até agora foi normalizar os dados e, em seguida, calcular um valor de plausibilidade para o ponto p com …

10 machine-learning multivariate-analysis feature-selection algorithms outliers

1

Avaliando o desempenho de um modelo de regressão usando conjuntos de treinamento e teste?

Costumo ouvir sobre a avaliação do desempenho de um modelo de classificação, mantendo o conjunto de testes e treinando um modelo no conjunto de treinamento. Em seguida, crie 2 vetores, um para os valores previstos e outro para os valores verdadeiros. Obviamente, fazer uma comparação permite julgar o desempenho do …

10 regression machine-learning model-evaluation

1

Comparação de CPH, modelo de tempo de falha acelerado ou redes neurais para análise de sobrevivência

Eu sou novo na análise de sobrevivência e aprendi recentemente que existem diferentes maneiras de fazer isso, com um determinado objetivo. Estou interessado na implementação real e na adequação desses métodos. Fui apresentado aos tradicionais Riscos Proporcionais de Cox , modelos de tempos de falha acelerados e redes neurais (perceptron …

10 r machine-learning survival neural-networks cox-model

2

sobre independência condicional e sua representação gráfica

Ao estudar a seleção de covariância, li uma vez o exemplo a seguir. Com relação ao seguinte modelo: Sua matriz de covariância e matriz de covariância inversa são dadas a seguir, Eu não entendo por que a independência dos e é decidido pelo covariância inversa aqui?xxxyyy Qual é a lógica …

10 machine-learning bayesian conditional-probability covariance graphical-model

1

Árvores de decisão dimensionamento variável (recurso) e normalização variável (ajuste) necessários em quais implementações?

Em muitos algoritmos de aprendizado de máquina, dimensionamento recurso (aka variável de escala, normalização) é um comum prepocessing passo Wikipedia - função Dimensionamento - esta questão estava perto Pergunta # 41704 - Como e por que a normalização e operação de referência de escala? Eu tenho duas perguntas especificamente em …

10 machine-learning feature-selection cart

6

Modelos flexíveis e inflexíveis no aprendizado de máquina

Me deparei com uma pergunta simples sobre a comparação de modelos flexíveis (ou seja, splines) versus modelos inflexíveis (por exemplo, regressão linear) em diferentes cenários. A questão é: Em geral, esperamos que o desempenho de um método flexível de aprendizado estatístico tenha um desempenho melhor ou pior que um método …

10 machine-learning model

4

Convergência de pesos de redes neurais

Cheguei a uma situação em que os pesos da minha rede neural não estão convergindo, mesmo após 500 iterações. Minha rede neural contém 1 camada de entrada, 1 camada oculta e 1 camada de saída. São cerca de 230 nós na camada de entrada, 9 nós na camada oculta e …

10 machine-learning neural-networks

3

Como obter um intervalo de confiança na mudança do quadrado da população

Para um exemplo simples, assuma que existem dois modelos de regressão linear Modelo 1 tem três preditores, x1a, x2b, ex2c O modelo 2 possui três preditores do modelo 1 e dois preditores adicionais x2aex2b Existe uma equação de regressão populacional em que a variação populacional explicada é para o Modelo …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

1

Como incorporar um outlier inovador na observação 48 no meu modelo ARIMA?

Estou trabalhando em um conjunto de dados. Depois de usar algumas técnicas de identificação de modelos, criei um modelo ARIMA (0,2,1). Usei a detectIOfunção no pacote TSAem R para detectar um outlier inovador (IO) na 48ª observação do meu conjunto de dados original. Como faço para incorporar esse erro externo …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

5

Como você decide quais são suas porcentagens de trem, validação e teste?

Ao dividir meus dados rotulados em conjuntos de treinamento, validação e teste, ouvi de 50/25/25 a 85/5/10. Estou certo de que isso depende de como você usará o seu modelo e de quão propenso a sobreajustar o seu algoritmo de aprendizado. Existe uma maneira de decidir ou é tudo por …

10 machine-learning cross-validation

1

Estatísticas para aprendizado de máquina, documentos para começar?

Tenho formação em programação de computadores e teoria elementar dos números, mas não tenho treinamento em estatística real, e recentemente "descobri" que o incrível mundo de toda uma gama de técnicas é realmente um mundo estatístico. Parece que fatorações matriciais, conclusão matricial, tensores de alta dimensão, incorporação, estimativa de densidade, …

10 machine-learning estimation

Perguntas com a marcação «machine-learning»