Como faço para solucionar problemas quando não tenho ideia de por onde começar?


40

Estou procurando dicas, sugestões e respostas sobre como começar a solucionar problemas quando:

  1. O problema é intermitente
  2. O problema poderia estar literalmente em qualquer lugar - sistema operacional; software de fonte livre; meus próprios desenvolvimentos de software; software comprado; migalhas no teclado; a combinação específica de software que estou executando atualmente; Demônio de Maxwell; os homenzinhos azuis que operam a máquina entraram em greve; etc.
  3. Tenho conhecimento apenas em algumas das áreas que são potenciais candidatas para a causa do problema.

O problema específico que estou tendo é detalhado abaixo como um exemplo, mas não estou buscando respostas para o meu problema atual, mas sim onde e como começar a lidar com esses problemas.

Atualmente estou encontrando um problema com a minha nova máquina. Em algumas ocasiões, a máquina acaba de congelar; não aceitando pressionamentos de tecla, cliques do mouse ou qualquer coisa, exceto a chave liga / desliga. Invariavelmente eu tenho apenas navegado na web; Eu tive alguns (& lt; = 6 outros aplicativos) em execução. Nenhuma dessas aplicações é importante; e representam uma mistura de programas comerciais e programas de código aberto, normalmente migrados do Unix de alguma variedade.

Minha máquina é um laptop quad core do Windows 7 I7.

EDITAR:

Embora afirmei que a descrição real do problema era apenas um exemplo, alguns dos comentários estão se concentrando na solução desse problema. Infelizmente, como foi apenas um exemplo, a informação dada está correta, mas não completa. Para evitar que as pessoas gastem seu tempo tentando, remotamente, ajudar com o problema real, estou dando algumas outras informações sobre minha configuração. Como eu disse originalmente, não estou buscando respostas para esse problema específico.

Minha máquina é um laptop de alta potência; é minha máquina principal; é usado para desenvolvimento e redação técnica, comunicações - e-mail, web, FTP, etc, e para edição e indexação de fotos. Um conjunto rigoroso e abrangente de programas de teste de hardware, incluindo testes de CPU, vários testes de memória e testes em todos os outros componentes, é executado mensalmente. Também executar pelo menos mensalmente é uma verificação completa de vírus; uma varredura completa de spyware; uma limpeza de disco; e uma desfragmentação de disco.

O disco contém aproximadamente 3 * 10 ^ 6 arquivos; o uso do disco é de 300 Gb, deixando 150 Gb livres. A memória é de 8 GB. Enquanto a máquina pode ficar um pouco quente quando estou executando um complemento completo das principais ferramentas de desenvolvimento, só encontrei o problema ao usar a máquina levemente - navegação na Web e Textpad plus Graphwiz mais um banco de dados Firebird e um leve navegador de banco de dados (Flame Robin ). Nestas circunstâncias, até o ventilador não está ligeiramente quente. Eu não fiz alterações no software, sistema operacional ou hardware durante o período em que encontrei o problema. Ocorreram várias atualizações automáticas - Microsoft, Adobe e Lenovo principalmente, mas não exclusivamente.

Esse pano de fundo coloca em contexto (espero) minhas razões para fazer essa pergunta da maneira que fiz. Agora vou começar a investigar os vários registros mencionados nas respostas como um primeiro passo na tentativa de estreitar o campo de investigação. E vou tentar um exercício com uma das características sugeridas nas respostas que recebi até agora - paciência - em minha investigação.


6
+1 porque esta pergunta pode ser útil para eu vincular no futuro.
Tom Wijsman

2
Às vezes, antes de iniciar uma abordagem completa e metódica de solução de problemas, você deve tentar uma varredura comum: Execute uma varredura completa de spyware, procure no log do Windows por desligamentos inesperados e veja quais (se houver) problemas o precederam, verifique a situação do espaço em disco, execute o disco de verificação, dê ao Autoruns da Sysinternal uma verificação rápida de software suspeito / desconhecido. Tenha um conjunto simples de ferramentas para executar, que pode identificar rapidamente uma grande variedade de problemas de hardware e software. Se eles não encontrarem nada, você perdeu pouco tempo e pode iniciar um processo mais completo.
Alain

1
Além disso, siga Blog de Marcos por exemplo, como problemas irritantes são solucionados com o Sysinternals.
Tom Wijsman

1
Boa sorte na solução de problemas, sugiro criar uma nova pergunta se você quiser mais feedback para manter as coisas organizadas ...
Tom Wijsman

Respostas:


42

Tenha uma ideia melhor.

Você não vai ganhar uma batalha sem informações de campo suficientes.

  1. Descrever seu problema em detalhes, para que você tenha uma boa idéia, quem sabe apenas acontece uma vez.

  2. Rastrear no tempo o que aconteceu antes e junto com o problema, você e seu computador.

  3. Pense nas possíveis causas porque às vezes pode ser algo que não é óbvio.

  4. Consiga mais informação sempre que você não tem idéia do que está acontecendo, isso pode variar de Eventos , para Ferramentas SysInternals , para Análise de desempenho , para Depuração , para qualquer outra ferramenta em sua experiência .

  5. Teste suas suposições para ter certeza de que seus pensamentos não filtram a causa.

Dividir e conquistar.

Porque é assim que militar derrotar seu oponente mesmo quando em menor número.

Elimine as possíveis causas ou você terá problemas para acompanhar o problema. Dessa forma, você se aproximará cada vez mais da causa raiz do problema, permitindo que você resolva o problema com muito mais facilidade.

Por exemplo, com hardware , desconecte e remova qualquer coisa que você não precise para consertar seu problema. Dessa forma, você pode desconectar o componente que está causando o problema. E então, novamente, é uma questão de inserir metade dos componentes, verificando se ela se repete e repetir a divisão até que você tenha o componente ruim ...

Testar algo em outro computador, se disponível, também é um bom benefício para resolver o problema.

Por exemplo, com software , reinicializar no modo de segurança, desabilitar as entradas de inicialização também ajuda. Isso também se aplica a ativar / desativar configurações, tentando a configuração padrão e assim por diante ...

Vamos colocá-lo para o teste.

Atualmente estou encontrando um problema com a minha nova máquina. Em algumas ocasiões, a máquina acaba de congelar; não aceitando pressionamentos de tecla, cliques do mouse ou qualquer coisa, exceto a chave liga / desliga. Invariavelmente eu tenho apenas navegado na web; Eu tive alguns (& lt; = 6 outros aplicativos) em execução. Nenhuma dessas aplicações é importante; e representam uma mistura de programas comerciais e programas de código aberto, normalmente migrados do Unix de alguma variedade.

  1. Aquilo é um descrição apropriada por si só, não acontece apenas uma vez ou.

  2. Você sabe o que aconteceu junto com o problema,
    mas não pensei em coisas que você ou seu computador fizeram antes do problema .

    Eu não posso dizer isso, mas você, seu log de eventos e arquivos / pastas recentemente modificados poderiam dizer.

  3. Possível causa é mais provável que seja relacionado à CPU porque é o componente que processa as coisas.

    Mais especificamente, isso poderia ser um processo, um driver ou hardware com falha (talvez problemas de temperatura?).

  4. Eu sei que é CPU, mas não sei o quê. Eventos não mostram isso, o Process Explorer aguentaria DPC .

    Então, no próximo passo, deixo executar a análise de rastreio que fecho após o travamento.

    Eu olho para o traço e Eu vejo que o driver X está causando o problema !

  5. Nenhuma suposição real é feita. A suposição da CPU é tratada pelo nosso Divide & amp; Conquiste abordagem ...

Então, é aí que eu começo a dividir para conquistar o problema, paro uma vez resolvido:

  1. Problema com a versão atual do driver?
    Atualize o driver para a versão mais recente.

  2. Problema com as versões mais recentes do driver?
    Obter um novo traço Atualize o driver para uma versão antiga diferente da inicial.

  3. Problema com o dispositivo? Problema de configuração no registro?
    Obter um novo traço Reinstale e / ou desative o dispositivo, se possível.

  4. Problema é aleatório, é o processador aquecendo?
    Verifique a temperatura do processador, substitua a ventoinha, se necessário.

  5. Problema não é o processador, existem outras influências de hardware e software?
    Remova o hardware e desabilite a execução do software, para obter influência de terceiros.

  6. Problema não está em uma parte removível, deve ser substituído.
    Na pior das hipóteses, se tudo mais falhar, você precisa de um substituto.

Obter novos rastreios e remover hardware nos fornece mais informações, por isso sabemos onde procurar em seguida.


4
+1 para dividir e conquistar. Aceito para especificação de descrição, rastreamento e mecanismos para dividir e conquistar o problema.
Chris Walton

5
+1 resposta brilhante. A única coisa a acrescentar é esta: teste suas suposições
Bevan

que tal "mudar uma coisa de cada vez"?
Florenz Kley

2
@Florenz: Bem, ao dividi-lo, você pode pegá-los um por um (por um pequeno número, ou quando você não pode se basear em várias causas) ou dividi-los (para um número maior, quando você pode verificar várias coisas em Uma vez, dividir em meio, se possível, é mais rápido do que fazê-los um por um.Por exemplo, para solucionar 100 coisas, você só precisa testá-lo 8 vezes (100- & gt; 50- & gt; 25- & gt; 13- & gt; 7 - & gt; 4 & gt; 2 & gt; 1), em vez de 100 vezes ...
Tom Wijsman

2
divisão sensata! O que eu quis dizer é "não conserte coisas mais rápido do que você pode atribuir uma mudança a um delta observado". Usar um livro de laboratório com páginas que não posso arrancar é o meu método para garantir que posso fazê-lo.
Florenz Kley

6

Bons registros e intuição - realmente.

  • A partir do dia 1, acompanhe tudo o que você faz no sistema: app & amp; Atualizações do SO, novas instalações, hardware ou conexões novas ou removidas, a tempestade que "não causou nenhum problema".
  • Quando você percebeu o problema pela primeira vez:
    • O que você estava fazendo?
    • O que mais incomum aconteceu recentemente?
    • O que você fez de forma diferente recentemente?
    • A partir de então, fique atento ao que você está fazendo, da próxima vez que isso acontecer, você terá uma melhor compreensão do que acabara de ser feito.
    • Instantâneo dos logs do sistema.
  • Veja se você consegue reproduzi-lo. Até que você possa reproduzi-lo, não poderá encontrá-lo.
  • Comece a particionar o sistema: modo de segurança vs. execução ao vivo, nova conta vs. sua conta normal, teclado e mouse diferentes dos normais (especialmente bluetooth vs. com fio), isso acontece alguns minutos depois de começar ou acordar só depois de uma hora a mais de corrida (pense em térmica).

2
+1 para atividade de registro; e para intuição. Não é a resposta aceita apenas porque o registro só é bom se feito a partir do dia 1. Tenho mantido registros, mas não suficientemente detalhados; e não incluiu atualizações do sistema da Microsoft e outras atualizações automatizadas.
Chris Walton

1
@ ChrisWalton: Existem logs detalhados para o Windows Update, inserção / remoção do dispositivo, instalação do driver e assim por diante. Vejo C:\Windows\*.log, C:\Windows\Logs, C:\Windows\inf\*.log e também Performance Monitor > Data Collector Sets > (Startup) Event Trace Sessions. Além disso, @JRobert, +1 para explicar como obter uma ideia com mais detalhes ...
Tom Wijsman

4

Eu costumo começar com os logs de eventos e todos os logs que um programa pode criar por conta própria. Os programas, às vezes, criam um log na pasta do programa.

Depois de identificar a hora, pesquise os registros em busca de eventos. Naturalmente, os logs do Windows podem apresentar erros de parada que serão fáceis de identificar.

Verifique todos os drivers e verifique se eles estão atualizados.

Paciência provavelmente será necessária em grandes doses.


2

Além de todo o bom conselho já dado, se os arquivos de log não estão lhe dando muito para continuar, um teste de memória apropriado da máquina vale a pena - memória defeituosa pode causar todos os tipos de congelamentos e travamentos estranhos e intermitentes. O teste de memória embutido é muito mais parecido com uma contagem de memória que é extremamente raro o teste de ativação detecta uma falha de memória.

Google para Windows Memory Diagnostic e grave em um CD. É velho, mas é um dos melhores testes de memória, e é grátis.


obrigado pela sua resposta e pela ferramenta sugerida. Temo que você tenha perdido o ponto da minha pergunta - você sugere testes de memória; alguém sugeriu downloads automáticos de software da Adobe. Minha pergunta foi; Nestas circunstâncias, como você decide o que fazer quando há uma enorme gama de possibilidades.
Chris Walton

1
@ Chris: Como eu disse; ao solucionar problemas intermitentes e inexplicáveis ​​(em uma situação de desenvolvimento inexistente), se não houver nenhum log para começar e nenhum outro marcador sugerir onde começar, eu executaria um teste de memória. A lógica é, é relativamente rápido para executar em comparação com a tentativa de replicar um problema intermitente. Uma vez descartada, você começa a diminuir e ter uma ideia, como diz TomWij.
Matt

justo.
Chris Walton
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.