ATENÇÃO: Não estou tentando melhorar o exemplo a seguir. Eu sei que você pode obter mais de 99% de precisão. O código inteiro está na pergunta. Quando tentei esse código simples, obtive cerca de 95% de precisão; se eu simplesmente alterar a função de ativação de sigmoid para relu, ela cai para menos de 50%. Existe uma razão teórica para isso acontecer?
Encontrei o seguinte exemplo online:
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers.core import Dense, Activation
from keras.utils import np_utils
(X_train, Y_train), (X_test, Y_test) = mnist.load_data()
X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)
Y_train = np_utils.to_categorical(Y_train, classes)
Y_test = np_utils.to_categorical(Y_test, classes)
batch_size = 100
epochs = 15
model = Sequential()
model.add(Dense(100, input_dim=784))
model.add(Activation('sigmoid'))
model.add(Dense(10))
model.add(Activation('softmax'))
model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='sgd')
model.fit(X_train, Y_train, batch_size=batch_size, epochs=epochs, verbose=1)
score = model.evaluate(X_test, Y_test, verbose=1)
print('Test accuracy:', score[1])
Isso fornece cerca de 95% de precisão, mas se eu alterar o sigmóide com o ReLU, obtém menos de 50% de precisão. Por que é que?