Bem, então: bem-vindo ao mundo R ;-)
Aqui está
Configurando o código
urls <- c(
"http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html",
"http://en.wikipedia.org/wiki/Xz",
"xxxxx"
)
readUrl <- function(url) {
out <- tryCatch(
{
# Just to highlight: if you want to use more than one
# R expression in the "try" part then you'll have to
# use curly brackets.
# 'tryCatch()' will return the last evaluated expression
# in case the "try" part was completed successfully
message("This is the 'try' part")
readLines(con=url, warn=FALSE)
# The return value of `readLines()` is the actual value
# that will be returned in case there is no condition
# (e.g. warning or error).
# You don't need to state the return value via `return()` as code
# in the "try" part is not wrapped insided a function (unlike that
# for the condition handlers for warnings and error below)
},
error=function(cond) {
message(paste("URL does not seem to exist:", url))
message("Here's the original error message:")
message(cond)
# Choose a return value in case of error
return(NA)
},
warning=function(cond) {
message(paste("URL caused a warning:", url))
message("Here's the original warning message:")
message(cond)
# Choose a return value in case of warning
return(NULL)
},
finally={
# NOTE:
# Here goes everything that should be executed at the end,
# regardless of success or error.
# If you want more than one expression to be executed, then you
# need to wrap them in curly brackets ({...}); otherwise you could
# just have written 'finally=<expression>'
message(paste("Processed URL:", url))
message("Some other message at the end")
}
)
return(out)
}
Aplicando o código
> y <- lapply(urls, readUrl)
Processed URL: http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html
Some other message at the end
Processed URL: http://en.wikipedia.org/wiki/Xz
Some other message at the end
URL does not seem to exist: xxxxx
Here's the original error message:
cannot open the connection
Processed URL: xxxxx
Some other message at the end
Warning message:
In file(con, "r") : cannot open file 'xxxxx': No such file or directory
Investigando a saída
> head(y[[1]])
[1] "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">"
[2] "<html><head><title>R: Functions to Manipulate Connections</title>"
[3] "<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"
[4] "<link rel=\"stylesheet\" type=\"text/css\" href=\"R.css\">"
[5] "</head><body>"
[6] ""
> length(y)
[1] 3
> y[[3]]
[1] NA
Observações adicionais
tryCatch
tryCatchretorna o valor associado à execução, a exprmenos que haja um erro ou aviso. Nesse caso, valores de retorno específicos (veja return(NA)acima) podem ser especificados fornecendo uma função de manipulador respectiva (consulte argumentos errore warningin ?tryCatch). Podem ser funções que já existem, mas você também pode defini-las dentrotryCatch() (como fiz acima).
As implicações da escolha de valores de retorno específicos das funções do manipulador
Como especificamos que NAdeve ser retornado em caso de erro, o terceiro elemento yé NA. Se tivéssemos escolhido NULLpara ser o valor de retorno, o comprimento yseria apenas ter sido 2em vez de 3como lapply()simplesmente "ignorar" valores de retorno que são NULL. Observe também que, se você não especificar um valor de retorno explícito via return(), as funções do manipulador retornarão NULL(ou seja, no caso de um erro ou condição de aviso).
Mensagem de aviso "indesejado"
Como warn=FALSEnão parece ter efeito, uma maneira alternativa de suprimir o aviso (que neste caso não é realmente interessante) é usar
suppressWarnings(readLines(con=url))
ao invés de
readLines(con=url, warn=FALSE)
Várias expressões
Observe que você também pode colocar várias expressões na "parte de expressões reais" (argumento exprde tryCatch()) se as envolver entre colchetes (como ilustrado na finallypeça).
pastefunções termina com um espaço, por que não omitir o espaço e osep=""?