Bem-vindo a 2019 e ao /u
modificador em regex que tratará de caracteres multibyte UTF-8 para você
Se você usar apenas mb_convert_encoding($value, 'UTF-8', 'UTF-8')
, ainda assim ficará com caracteres não imprimíveis em sua string
Este método irá:
- Remova todos os caracteres multibyte UTF-8 inválidos com
mb_convert_encoding
- Remova todos os caracteres não imprimíveis como
\r
, \x00
(NULL-byte) e outros caracteres de controle compreg_replace
método:
function utf8_filter(string $value): string{
return preg_replace('/[^[:print:]\n]/u', '', mb_convert_encoding($value, 'UTF-8', 'UTF-8'));
}
[:print:]
corresponder a todos os caracteres e \n
novas linhas imprimíveis e remover todo o resto
Você pode ver a tabela ASCII abaixo. Os caracteres imprimíveis variam de 32 a 127, mas a nova linha \n
é uma parte dos caracteres de controle que variam de 0 a 31, então temos que adicionar nova linha ao regex/[^[:print:]\n]/u
Você pode tentar enviar strings através do regex com caracteres fora do intervalo de impressão, como \x7F
(DEL), \x1B
(Esc) etc. e ver como eles são removidos
function utf8_filter(string $value): string{
return preg_replace('/[^[:print:]\n]/u', '', mb_convert_encoding($value, 'UTF-8', 'UTF-8'));
}
$arr = [
'Danish chars' => 'Hello from Denmark with æøå',
'Non-printable chars' => "\x7FHello with invalid chars\r \x00"
];
foreach($arr as $k => $v){
echo "$k:\n---------\n";
$len = strlen($v);
echo "$v\n(".$len.")\n";
$strip = utf8_decode(utf8_filter(utf8_encode($v)));
$strip_len = strlen($strip);
echo $strip."\n(".$strip_len.")\n\n";
echo "Chars removed: ".($len - $strip_len)."\n\n\n";
}
https://www.tehplayground.com/q5sJ3FOddhv1atpR