Um cliente quer que examinemos máquinas de trabalho para pornografia. É possível?


30

Um cliente de longa data nos pediu para ajudar a rastrear suas máquinas de trabalho em busca de pornografia. Eles estão preocupados com a responsabilidade se materiais sensíveis forem encontrados. Suas principais preocupações (por razões óbvias) são arquivos de vídeo, áudio e imagem. Se possível, eles também gostariam de digitalizar documentos baseados em texto em busca de conteúdo inapropriado. Eles têm uma hierarquia de conteúdo não relacionado ao trabalho, começando com flagrantemente ilegal (não preciso listar detalhes), passando para obviamente ofensivos e também incluindo coisas que podem ser ofensivas para alguns - pense em anúncios de lingerie, cartões de piada com rachaduras na bunda e qualquer coisa relacionada a Howie Mandel.

Minhas perguntas são:

  • Isso é ético? Eu acho que é porque todo funcionário concorda legalmente que sua máquina de trabalho pertence à empresa e está sujeita a pesquisa. Os exames não devem ocorrer em máquinas pessoais levadas ao trabalho.
  • Isso é viável? Eu fiz muito processamento / indexação de imagens, mas isso parece um mundo totalmente novo de complexidade.
  • Alguma referência a técnicas de sucesso para descobrir pornografia?
  • É apropriado arquivar os resultados quando algo é descoberto?

29
De quem a pornografia usará para testar isso?
precisa saber é o seguinte

12
Eu quero ser um testador para este projeto !!
Mayank 03/03

56
Crie um script que publique todas as imagens encontradas no 4chan; se outros membros responderem "MOAR!", você sabe que é pornô. Se o script for banido, provavelmente é CP.
precisa saber é o seguinte

8
Você teria que pensar que já existem milhões de produtos comerciais disponíveis para isso.
GrandmasterB

34
Pergunta honesta: este é realmente um problema provável? Pornografia no computador do trabalho? Quero dizer ... quem faz isso? Além disso, como eles pretendem lidar com conteúdo pornô acidental? Minha GF realmente teve um vírus no PC de seu trabalho recentemente, que redirecionou consultas arbitrárias do Google para sites pornográficos, e sempre que eu digitava acidentalmente "python.com" [NSFW!] Em vez de "python.org" ... Além disso, se isso é realmente um problema, acho que isso trai um problema mais fundamental de confiança e / ou profissionalidade na empresa. Endereço que, em vez de procurar nos computadores.
Konrad Rudolph

Respostas:


125

Você pode fazer isso com 90% de Headology , 10% de software.

Em primeiro lugar, verifique silenciosamente os computadores dos funcionários, crie um banco de dados de arquivos e tamanhos para cada funcionário.

Em seguida, vaze um memorando de que todos os PCs serão verificados quanto a conteúdo questionável, ou seja, os chefes têm um programa semelhante ao Shazam que pode identificar pornografia etc.

Alguns dias depois, verifique os computadores em busca de arquivos e tamanhos novamente. Veja os arquivos excluídos, eles são arquivos de filme ou imagem? Então, esses são os funcionários que você precisa manter de olho.

Examine regularmente os PCs dos funcionários em busca de imagens e filmes e verifique-os manualmente quanto a conteúdo questionável.


9
E +1 por mencionar headology.
TRiG 03/03

5
@ Binários: a abordagem em duas etapas é realmente impressionante.
Matthieu M. 03/03

2
+1de mim para a referência a vovó!
sbi 3/03/11

2
@ Anonymous Enquanto você está nisso. Crie uma GUI no Visual Basic para verificar se você pode rastrear um endereço IP. youtube.com/watch?v=hkDD03yeLnU . Sério, essa é uma maneira incrível de usar uma técnica de roteiro de programa de TV de segunda categoria.
Evan Plaice

2
que idéia perversa! amá-lo ♥
Chani

75

Essa é uma tarefa óbvia da rede neural. Primeiro você precisa de um grande conjunto de imagens de treinamento selecionadas por especialistas em sua empresa .....

Uma solução mais eficaz é anunciar que você procurará pornografia em todos os computadores na PRÓXIMA semana / mês / qualquer outra coisa e depois escreverá um aplicativo simples que apenas exercita o disco. Garanto que as máquinas serão limpas até então.


ps - Alguns pontos 'sérios' - você realmente não quer encontrar nada.

Se você encontrar algumas imagens em um cache do navegador, talvez elas tenham um link ruim ou um pop-up desonesto - lembre-se do professor demitido pelo whitehouse.com? Se você os demitir / disciplinar por isso, haverá uma reação dos trabalhadores / sindicato. Como sua empresa funcionaria se cada clique tivesse que ser submetido à aprovação legal antes que seus funcionários pesquisassem uma pergunta ou verificassem um preço on-line?

Se você encontrar uma pilha de pornografia em uma máquina, como vai provar que foi colocada ali por esse funcionário? Você tem o tipo de sistemas de segurança e auditoria que resistiriam no tribunal? Você usa (ou conhece) um sistema operacional em que um administrador do sistema não pode colocá-los lá e fazer com que pareçam os arquivos do usuário?

Além disso, na minha experiência, os locais mais comuns para esconderijos pornográficos estão nos laptops de CxOs e VPs seniores.

É muito melhor organizar apenas para que os arquivos desapareçam antes do tempo.


+1 - embora eu combinasse isso com uma verificação humana baseada em%. Talvez selecionando aleatoriamente 0,1% das estações de trabalho para inspeção real.
Tirou

@nikie: Martin estava fazendo uma piada sobre o treinamento.
Andrew Grimm

Esta é uma solução muito engraçado, e acurado :)
crosenblum

10
Esperar. Como você sabia que eu coloquei meu estoque de pornografia no laptop do CEO?
Jaap

1
Eu ficaria surpreso se as pessoas realmente excluíssem todo o seu pornô quando confrontadas com a perspectiva de suas máquinas serem escaneadas. O programador provavelmente faria isso, mas IME outras pessoas são realmente, erm, "estranhas" em relação a essas coisas. No entanto, você pode combinar isso com a idéia da Binary e olhar mais de perto as máquinas nas quais muitos MB foram excluídos. No entanto, +1de mim pela observação de que você realmente não quer encontrar algo.
SBI

8

Essa abordagem de controle é certamente dolorosa para funcionários e pessoas de TI. Depois que qualquer coisa entra na máquina do funcionário, não há maneira de detectá-la. Você precisa impedir que ele entre na máquina em primeiro lugar.
A prática mais conhecida para isso é obviamente o controle sobre os sites / domínios que podem ser visitados. Essa lista deve estar disponível em algum lugar na rede. Além disso, você também pode acompanhar o número de imagens, vídeos que o funcionário baixou e de onde veio.
Há chances de que o material possa vir de outros sites que não a web, como discos rígidos externos. Pode haver uma varredura aleatória do sistema uma vez por mês, na qual você pode escolher aleatoriamente alguns dos vídeos e imagens e verificá-lo manualmente. Não tenho certeza de como isso pode ser feito. Mas a automação da verificação de imagens e vídeos certamente está fora do escopo e certamente será errônea.
Na verdade, não tenho muita idéia de restringir os funcionários de fazer coisas pessoais. Você deve confiar em seus funcionários para isso. Seus funcionários devem estar ocupados o suficiente no escritório para não ter tempo para isso. As preocupações são mais o empregado não está fazendo o seu trabalho certo? Ou ele / ela instalou algum software quebrado ou hackeado?


1
Concordo que os desenvolvedores - e outras pessoas criativas - não devem ter máquinas bloqueadas. No entanto - e confie em mim quando digo isso - quando você tem mais de 200 funcionários processando documentos de fluxo de trabalho, não deseja dar a esses caras nada que possa distraí-los e incluir um navegador. Sim, 90% das pessoas trabalham duro e não se distraem, mas isso significa que você terá mais de 20 gobshites fazendo xixi e sendo improdutivo.
Worrier binario 03/03

6
esses 10% serão improdutivos de qualquer maneira. Se não estiver navegando em sites, então jogue, leia, brinque, fique entediado etc.).
Jwenting 03/03

2
As pessoas ou realizam seu trabalho ou não. Eles são mais fáceis de detectar quando você tem 200 fazendo tarefas semelhantes que podem ser medidas.
Jeffo

2
Nos EUA, existem questões legais envolvidas com pornografia nos computadores da empresa e há realmente graves questões legais envolvidas com pornografia infantil. É mais seguro ter uma política contra pornografia e tomar medidas para mantê-la.
precisa

7

Existem vários produtos no mercado que executam "filtragem de conteúdo" de várias formas. (Uma pesquisa no Google em termos óbvios gera alguns candidatos óbvios.) Provavelmente é uma idéia melhor usar um desses produtos do que criar um monte de software de digitalização / filtragem do zero. Outra opção é apenas assistir nas fronteiras; por exemplo, monitorando e-mails externos e tráfego da web. Novamente, existem produtos que fazem esse tipo de coisa.

Embora não haja dúvida de que é ético para uma empresa escanear seus computadores em busca de "coisas ruins", isso não significa que não há problemas.

Primeira edição:

  • Determinar o que é e o que não é "conteúdo censurável" é subjetivo.
  • O software para detectar imagens, vídeos contendo (digamos) "representações do corpo nu" (AFAIK) provavelmente não é confiável, resultando em falsos positivos e negativos.

Então ... isso significa que alguém na organização do seu cliente precisa revisar os "hits". Isso custa dinheiro.

Segunda questão: pode haver uma explicação inocente. O arquivo pode ter sido baixado por acidente ou pode ter sido plantado por um colega de trabalho vingativo. Se houver uma explicação inocente, a organização do cliente precisa ter cuidado com o que faz / diz. (OK, este não é realmente o seu problema, mas você pode evitar parte da retrolavagem.)

Terceira questão: não obstante a empresa tenha o direito de monitorar materiais censuráveis, muitos funcionários acharão isso desagradável. E se eles forem longe demais, isso terá impacto no moral dos funcionários. Alguns funcionários vão "andar". Outros podem tomar medidas de protesto ... por exemplo, tentando criar muitos falsos positivos. (Novamente, não é realmente o seu problema, mas ...)

Quarta questão: as pessoas podem ocultar material censurável criptografando-o, colocando-o em mídia portátil ou removível etc. As pessoas podem falsificar os metadados para parecer que alguém é responsável.


1
O OP disse que isso se refere a questões de responsabilidade, o que faz muito sentido nos EUA. Isso significa tirar as coisas dos computadores, não necessariamente culpando as pessoas.
precisa

Eu diria que era mais do que isso. Considere o final da lista de conteúdo "não trabalho" na pergunta. Parece que em alguém tem uma "agenda" ...
Stephen C

@ David: é sempre sobre culpar as pessoas. Se você tiver um possível problema de responsabilidade, encontrar alguém para culpar ("essa pessoa agiu violando a política da empresa, e nós podemos provar isso, por isso é pessoalmente responsável, e não nós, como empresa") se torna a maneira padrão de trabalhar. Na verdade, é o que a maioria das pessoas em cargos de responsabilidade em muitas empresas passa boa parte do tempo fazendo, tentando encontrar pessoas para culpar por tudo o que pode dar errado e garantindo que ninguém possa culpá-las por qualquer problema que encontrar. in.
jwenting 04/03/11

6

Sobre aspectos legais, na França:

O chefe é dono dos computadores e da conexão com a internet: ele pode fazer o que quiser.

MAS, a privacidade dos funcionários não pode ser violada. Se um diretório no computador estiver rotulado como PESSOAL, o chefe não poderá digitalizá-lo.

A única maneira de contornar isso é obter elementos de evidência de que o funcionário armazena material ilegal e solicitar que um tribunal faça uma varredura no computador (observe que a pornografia não é ilegal na França).


Exceto na medida em que é material protegido por direitos autorais, qualquer um pode ser considerado roubo.
Trig

6
Na França, existe a noção de exceção à cópia privada: você não tem permissão para copiar material protegido por direitos autorais, mas os detentores dos direitos autorais não podem reivindicar nada se a sua cópia for usada em particular.
Mouviciel 3/03

Eu quero morar na França ... só que não sei falar francês!
tipo anônimo

5

Se os funcionários concordaram que sua máquina de trabalho pertence à empresa e está sujeita a pesquisa, sim, isso é legal. Como prova, o arquivamento dos arquivos provavelmente seria necessário.

Quanto a como realmente encontrar o material. Você poderia:

  1. Em primeiro lugar, verifique os nomes dos arquivos em busca de um determinado conjunto de palavras (pornografia, lésbicas etc.)
  2. Digitalize documentos de texto para o mesmo conjunto de palavras
  3. Para imagens, você pode encontrar a cor média da imagem, e se essa cor estiver dentro de um intervalo que a maioria se referiria como cor de 'pele', então sinalize a imagem (alguém que verifique duas vezes essas imagens sinalizadas provavelmente será necessário ) Não gostaria de denunciar alguém por uma imagem que acaba sendo uma foto de família da praia.

Se você digitalizar os arquivos enquanto eles estão entrando no computador (por exemplo, o programa foi carregado em todas as máquinas de trabalho e registra casos sinalizados em um banco de dados central), então não acho que seria muito óbvio (exceto os flagrantes empregador tem claramente para seus funcionários).

Com os arquivos de vídeo, não tenho 100% de certeza. Possivelmente, uma abordagem semelhante à da digitalização de imagens (escolha quadros aleatórios e digitalize para um determinado nível de cor da pele).

A varredura de arquivos de áudio parece que entraria no reconhecimento de fala, que é uma outra lata de minhocas. A digitalização do nome do arquivo, no entanto, seria fácil e poderia ser feita como nos documentos, imagens e vídeo.


Sim, eu estava pensando na mesma linha. Os tons de carne são difíceis com todas as variedades. Sem mencionar que um tiro na cabeça de alguém (como o meu gravatar) provavelmente dispara o aviso de proporção entre carne e não carne. Início incrível, no entanto.
Scant Roger

muito risco de falsos positivos (dependendo em parte dos negócios envolvidos).
Jwenting 03/03/19

Há um espaço de cores em que a maioria dos tons de pele humana cai em um determinado intervalo. YCbCr se bem me lembro. Divida a imagem em blocos e se, na maioria dos blocos, o valor médio do pixel cair no intervalo, sinalize-o como uma foto "skin".
Vitor Py

Há outro problema. A pessoa encarregada de verificar o vídeo pode processar você. Eu certamente não gostaria de fazer isso. (Nem todos os pornografia é ao gosto de todas as pessoas.)
Christopher Mahan

A Barragem Verde (sim, do governo do irmão mais velho no leste) deve usar o OpenCV por suas capacidades de detecção de rosto. Isso ainda gerará muitos falsos positivos, mesmo quando combinados com a detecção do tom de pele.
rwong

4

Como disse @Ryan, a análise de imagem pode se concentrar na análise de cores.

Viabilidade? Minha irmã trabalha em uma área do governo onde eles recebem algum tipo de auditoria todos os anos, e antes era para pornografia. Ela (geofísica) tinha vários falsos positivos (rochas cor de rosa).


4

Há pesquisas recentes significativas sobre a detecção de pornografia usando métodos de classificação convencionais. Exemplos estão disponíveis aqui e aqui .


3
  • Isso é ético?

Depende da implementação e das expectativas razoáveis ​​dos funcionários. Por exemplo, se seu software varre qualquer máquina conectada à rede, existe um requisito adicional de que a infra precisa impedir que máquinas não autorizadas se conectem. (Talvez isso deva ser óbvio, mas é frequentemente ignorado nas redes que eu já vi)

  • Isso é viável? Eu fiz muito processamento / indexação de imagens, mas isso parece um mundo totalmente novo de complexidade.

É possível testar drogas todos os funcionários? Talvez sim, mas eu questiono o seu valor. Eu aleatoriamente. Informe aos funcionários que suas máquinas podem ser verificadas quanto a conteúdo inadequado a qualquer momento.

  • Alguma referência a técnicas de sucesso para descobrir pornografia?

Eu não estou tocando este. Eu não acho que eu poderia manter meu senso de humor sob controle. Mas cuidado com o problema de Scunthorpe ao pesquisar texto.

  • É apropriado arquivar os resultados quando algo é descoberto?

Este me preocupa mais, e eu pediria a um advogado. Suspeito que, se você encontrar conteúdo ilegal, você pode ser tecnicamente legalmente obrigado a divulgá-lo. Isso é ruim, principalmente se o usuário foi exposto por nenhuma falha real. Você (r cliente) precisará de aconselhamento jurídico real sobre como lidar com isso. Envolva o RH e os advogados.


2

Do ponto de vista puramente técnico: isso soa como um problema de reconhecimento de categoria de objeto. Eu nunca fiz nada assim, mas pelo que li, os sistemas de reconhecimento de categoria de ponta funcionam assim:

  • Primeiro, você procura um grande número de pontos de interesse (por exemplo, usando um Harris Corner Detector, pontos extremos dos filtros LoG / DoG no espaço da balança; alguns autores até sugerem escolher pontos aleatórios)
  • Em seguida, você aplica uma transformação de recurso a cada ponto (algo como SIFT, SURF, GLOH ou muitos outros)
  • Combine todos os recursos encontrados em um histograma (Bag-Of-Features)
  • Use algoritmos padrão de aprendizado de máquina (como máquinas de vetores de suporte) para aprender a distinção entre categorias de objetos usando um grande número de imagens de treinamento.

2

O sistema operacional de todo mundo provavelmente foi instalado a partir de uma imagem de disco.

  1. comece com a imagem do disco e obtenha uma lista dos arquivos que você provavelmente não precisa verificar.
  2. obtenha uma lista de todos os outros arquivos em cada PC.
  3. puxe os arquivos reais de 10 a 20 máquinas aleatórias e use-as como banco de ensaio
  4. procure itens em um dicionário de palavrões e palavras duvidosas (gatas, jarros, 'barely legal', piada etc.)
  5. Assista ao vídeo - alguém deveria ter algum vídeo?
  6. Ver fotos
  7. Qualquer arquivo de vídeo ou imagem questionável pode ser usado para pesquisar nas outras máquinas

Vai demorar um ou dois funcionários para serem pegos antes que alguém coloque qualquer coisa em seu computador de trabalho.

Cobrar uma quantia obscena de dinheiro por este serviço. Eu estarei Zappos nunca faria isso com seus funcionários.


2

Supondo que você seja um administrador de domínio na rede.

  1. C $ na máquina de cada usuário.
  2. Copie arquivos pornográficos em compartilhamento privado pessoal.
  3. Excluir do local original.
  4. Faça pipoca.
  5. Análise detalhada completa de todas as "evidências".

1

Eu só queria comentar, mas só tenho 1 representante, então não posso.

No caso do Gravatar, você pode adicionar uma função para filtrar de uma lista de sites limpos nos locais de cache da Internet. IE Gravatar e outros sites dos quais você não deseja falsos positivos. Você também pode filtrar coisas como o papel de parede da área de trabalho. Se eles exibem pornografia na área de trabalho, você acha que as pessoas notariam fora da sua auditoria.


1

Tais coisas nunca funcionam de maneira confiável. Você pode usar uma lista de bloqueio para bloquear domínios, seja no nome ou na inclusão em alguma lista (prática comum). Mas essas listas nunca estão completas e o bloqueio de nomes com base em critérios pode levar a muitos falsos positivos.

Você pode bloquear as palavras que aparecem no texto dos sites, mas, novamente, isso pode levar a falsos positivos (e fica muito lento conforme você precisa analisar cada bit de dados que passa pela sua rede para detectar "bits impertinentes").

você pode bloquear imagens (e talvez sites que as contenham) que mostram mais do que uma certa porcentagem de skintones. Mas, novamente, isso leva a muitos falsos positivos. Um departamento médico da universidade que bloqueia uma enciclopédia médica com imagens de membros e torsos mostrando feridas e problemas de pele é um exemplo bem conhecido disso. E, é claro, seria racista, pois só bloquearia certos tons de pele. Se você bloquear cores que combinam com a pele caucasiana, sempre haverá pornografia usando atores negros, por exemplo.

É melhor confiar nos seus funcionários e ter políticas em vigor para quando essa confiança for quebrada.


servidor proxy pessoal, partição oculta criptografada, máquinas virtuais. Sempre há uma maneira de esconder coisas. Claro, existem os smartphones Android com 3G. Por último, verifiquei que não há como um empregador impedir que seu funcionário assista o que quiser em seu próprio telefone com sua própria largura de banda.
precisa

é por isso que os meios técnicos são inúteis, certamente sem política. Se as pessoas souberem o que é permitido e o que não é (e eu não consigo pensar em uma pessoa educada que usaria uma máquina de trabalho para pornografia, mesmo sem essas políticas, mas isso é outra questão), a maioria vai aderir a isso. Aqueles que não descobrirão, mais cedo ou mais tarde, se existem meios técnicos ou não (provavelmente alguém verá algo em sua tela que não deveria ver enquanto passava).
jwenting

1

Não sei, tem que haver uma resposta do meio, que não é tão invasiva, mas resolve o problema real, RESPONSABILIDADE.

Peça que assinem uma renúncia, que libera a empresa de qualquer responsabilidade por coisas ilegais encontradas em computadores de trabalho, que não sejam relacionadas ao trabalho.


Eu não acho que a renúncia funcionaria nos EUA. Não conheço outros países.
precisa

Por que não funcionaria? Se o usuário tiver a capacidade de baixar conteúdo, instalar o software, ele naturalmente assumirá a responsabilidade por ele.
precisa saber é o seguinte

E, se a empresa tem a capacidade de filtrar pornografia, o que geralmente é assumido, e não o é, é parcialmente responsabilidade da empresa.
precisa

não em todo lugar. Em alguns países, a empresa é responsável pelo que quer que aconteça com qualquer equipamento que eles possuam, independentemente de o empregado estar usando-o para a finalidade a que se destina ou não. Isso também se aplica em certa medida aos EUA. De fato, houve tentativas de processar empresas por uso ilegal de seus produtos após a venda legal desses produtos (veja, por exemplo, os constantes processos judiciais contra fabricantes de armas de fogo por responsabilidade quando seus produtos são vendidos). usado em crimes, processos que, por sorte, geralmente são descartados, mas infelizmente nem sempre).
jwenting


1

Análise de imagem e conteúdo para determinar as diferenças entre uma foto de bom gosto de uma pessoa, uma foto de maiô, uma fotografia de nus, representações de pornografia ... até onde eu sei, não é nem de longe sofisticado o suficiente para fazer apenas em software.

Felizmente, o crowdsourcing deve ser útil aqui, como o @ammoQ sugeriu em um comentário. No entanto, não acredito que os membros do 4chan ou de qualquer outro fórum apreciem o grande número de imagens não- pornográficas, como gráficos genéricos da Web para a publicação de botões, molduras, anúncios etc.

Minha recomendação seria procurar soluções existentes de crowdsourcing, como o Amazon Mechanical Turk . (No entanto, os termos de serviço podem proibir explicitamente o envolvimento de conteúdo pornográfico, por isso, saiba que você poderá encontrar outra solução ou apresentar a sua.)

Para viabilizar o crowdsourcing, seu software deve estar preparado para executar algumas ou todas as seguintes ações:

  • Armazene informações que vinculam o conteúdo ao computador de origem
  • Identifique duplicatas exatas em todo o inventário e remova-as (mas as informações de origem são mantidas)
  • Diminua a imagem das imagens para alguma dimensão, talvez 320 x 200, o suficiente para identificar o conteúdo da imagem sem reter detalhes desnecessários e desperdiçar espaço de armazenamento / largura de banda
  • Crie imagens fixas do conteúdo do vídeo em algum intervalo regular e aplique a mesma regra de redução da amostra

Por fim, o banco de dados de imagens reduzidas que representam o conteúdo original da imagem e do vídeo é verificado pelos usuários (ou uma equipe designada, se você tiver os recursos), de acordo com o código de conduta da sua empresa. O programa ou a interface pode mostrar uma única imagem de cada vez ou uma tela de miniaturas - o que você considerar melhor para obter informações precisas.

A identidade do computador de onde as imagens vieram deve ser absolutamente secreta e desconhecida para as pessoas que avaliam os dados. Além disso, deve ser randomizado e cada imagem provavelmente marcada mais de uma vez para remover o viés.

A mesma técnica pode ser usada para o texto, mas primeiro o conteúdo pode ser classificado por classificações de palavras-chave que removem a maior parte do texto da revisão de fontes coletivas. Classificar um documento longo certamente consumirá mais tempo do que classificar uma imagem.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.