O conjunto de dados Iris é merecidamente utilizado em toda a ciência estatística, especialmente para ilustrar vários problemas em gráficos estatísticos, estatísticas multivariadas e aprendizado de máquina.
Contendo 150 observações, é pequeno, mas não trivial.
A tarefa que propõe de discriminar três espécies de íris a partir de medidas de suas pétalas e sépalas é simples, mas desafiadora.
Os dados são reais, mas aparentemente de boa qualidade. Em princípio e na prática, os conjuntos de dados de teste podem ser sintéticos e isso pode ser necessário ou útil para fazer uma observação. No entanto, poucas pessoas se opõem a dados reais.
Os dados foram usados pelo célebre estatístico britânico Ronald Fisher em 1936. (Mais tarde ele foi cavaleiro e tornou-se Sir Ronald.) Pelo menos alguns professores gostam da ideia de um conjunto de dados com um link para alguém tão conhecido no campo. Os dados foram originalmente publicados pelo botânico de espírito estatístico Edgar S. Anderson, mas essa origem anterior não diminui a associação.
Usar alguns conjuntos de dados famosos é uma das tradições que transmitimos, como dizer a cada nova geração que Student trabalhou para o Guinness ou que muitos estatísticos famosos se desentenderam. Isso pode parecer inércia, mas na comparação de métodos antigos e novos e na avaliação de qualquer método, geralmente é considerado útil testá-los em conjuntos de dados conhecidos, mantendo assim alguma continuidade na maneira como avaliamos os métodos.
Por último, mas não menos importante, o conjunto de dados Iris pode ser agraciado com fotos das flores em questão, como por exemplo, a útil entrada da Wikipedia no conjunto de dados .
Note. Do your bit for biological correctness in citing the plants concerned carefully. Iris setosa, Iris versicolor and Iris virginica are three species (not varieties, as in some statistical accounts); their binominals should be presented in italic, as here; and Iris as genus name and the other names indicating particular species should begin with upper and lower case respectively.