O que significa "linha de base" no contexto do aprendizado de máquina?

11

O que significa "linha de base" no contexto de aprendizado de máquina e ciência de dados?

Alguém me escreveu:

Dica: Uma linha de base apropriada fornecerá um RMSE de aproximadamente 200.

Eu não entendo isso. Ele quer dizer que, se meu modelo preditivo nos dados de treinamento tiver um RMSE abaixo de 500, é bom?

E o que poderia ser uma "abordagem de linha de base"?

— Meiiso
fonte

15

Uma linha de base é o resultado de um modelo / solução muito básico. Você geralmente cria uma linha de base e tenta criar soluções mais complexas para obter um resultado melhor. Se você obtiver uma pontuação melhor que a linha de base, é bom.

— Carl Rynegardh
fonte

bem, mas o que isso significa exatamente para o meu ponto? Para os meus duas citações

— Meiiso

2

Como a linha de base é 200, você deseja uma pontuação melhor. No seu caso, uma pontuação melhor significa que quanto menor, melhor. Você quer ficar abaixo de 200. Estou assumindo que você está lidando com uma regressão. A primeira coisa a ser usada para uma linha de base seria uma regressão comum de mínimos quadrados.

— Carl Rynegardh

8

Uma linha de base é um método que usa heurísticas, estatísticas simples de resumo, aleatoriedade ou aprendizado de máquina para criar previsões para um conjunto de dados. Você pode usar essas previsões para medir o desempenho da linha de base (por exemplo, precisão) - essa métrica será a que você compara qualquer outro algoritmo de aprendizado de máquina.

Em mais detalhes:

Um algoritmo de aprendizado de máquina tenta aprender uma função que modela o relacionamento entre os dados de entrada (recurso) e a variável de destino (ou rótulo). Ao testá-lo, você normalmente mede o desempenho de uma maneira ou de outra. Por exemplo, seu algoritmo pode ter 75% de precisão. Mas o que isso significa? Você pode inferir esse significado comparando com o desempenho de uma linha de base.

As linhas de base típicas incluem aquelas suportadas pelos estimadores "fictícios" do scikit-learn :

Linhas de base de classificação :

“Estratificado”: gera previsões respeitando a distribuição de classes do conjunto de treinamento.
“Most_frequent”: sempre prediz o rótulo mais frequente no conjunto de treinamento.
“Prior”: sempre prediz a classe que maximiza a classe anterior.
"Uniforme": gera previsões uniformemente aleatórias.
"Constante": sempre prevê um rótulo constante que é fornecido pelo usuário.

Isso é útil para métricas que avaliam uma classe não majoritária.

Linhas de base de regressão :

“Mediana”: sempre prediz a mediana do conjunto de treinamento
"Quantil": sempre prediz um quantil especificado do conjunto de treinamento, fornecido com o parâmetro quantil.
“Constante”: sempre prediz um valor constante que é fornecido pelo usuário.

Em geral, você deseja que sua abordagem supere as linhas de base que você selecionou. No exemplo acima, você deseja que sua precisão de 75% seja maior do que qualquer linha de base executada nos mesmos dados.

Por fim, se você estiver lidando com um domínio específico de aprendizado de máquina (como sistemas de recomendação), normalmente escolherá linhas de base que são abordagens atuais de ponta (SoTA) - já que geralmente você deseja demonstrar que seu abordagem faz melhor do que estes. Por exemplo, ao avaliar um novo algoritmo de filtragem colaborativo, você pode compará-lo à fatoração matricial - que por si só é um algoritmo de aprendizado, mas agora é uma linha de base popular, pois tem sido tão bem-sucedida na pesquisa de sistemas de recomendação.

— Aditya
fonte

0

Como temos muitos algoritmos de aprendizado de máquina, precisamos saber qual o algoritmo ML mais adequado para o nosso problema. Isso será identificado pelo algoritmo Baseline Prediction,

Um algoritmo de previsão de linha de base fornece um conjunto de previsões que você pode avaliar como faria com qualquer previsão do seu problema, como precisão de classificação ou RMSE.

As pontuações desses algoritmos fornecem o ponto de comparação necessário ao avaliar todos os outros algoritmos de aprendizado de máquina no seu problema.

para mais informações, temos um blog muito bom sobre ML: O que significa "linha de base" no contexto do aprendizado de máquina?

— San
fonte