Perguntas com a marcação «web-scraping»

Web scraping é o processo de extração de informações específicas de sites que não fornecem prontamente uma API ou outros métodos de recuperação automatizada de dados. Perguntas sobre "Como começar a raspar" (por exemplo, com Excel VBA) devem ser * exaustivamente pesquisadas *, pois vários exemplos de código funcional estão disponíveis. Os métodos de web scraping incluem aplicativos de terceiros, desenvolvimento de software personalizado ou até mesmo coleta manual de dados de maneira padronizada.


16
Como encontrar elementos por classe
Estou tendo problemas para analisar elementos HTML com o atributo "class" usando Beautifulsoup. O código fica assim soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Eu recebo um erro na mesma linha "depois" do script terminar. File "./beautifulcoding.py", line 130, in getlanguage …



3
Qual analisador de HTML é o melhor? [fechadas]
Atualmente, essa questão não se encaixa no nosso formato de perguntas e respostas. Esperamos que as respostas sejam apoiadas por fatos, referências ou conhecimentos, mas essa pergunta provavelmente solicitará debate, argumentos, pesquisas ou discussão prolongada. Se você acha que essa pergunta pode ser melhorada e possivelmente reaberta, visite o centro …

13
Como selecionar um valor de menu suspenso com o Selenium usando Python?
Preciso selecionar um elemento em um menu suspenso. Por exemplo: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Primeiro eu tenho que clicar nele. Eu faço isso: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Depois disso, tenho que selecionar o elemento bom, digamos Mango. Tentei fazê-lo, inputElementFruits.send_keys(...)mas …

14
Página JavaScript de raspagem da Web com Python
Estou tentando desenvolver um raspador de web simples. Quero extrair texto sem o código HTML. De fato, alcancei esse objetivo, mas vi que em algumas páginas onde o JavaScript é carregado, não obtive bons resultados. Por exemplo, se algum código JavaScript adiciona algum texto, não consigo vê-lo, porque quando ligo …




7
Titereiro: passe a variável em .evaluate ()
Estou tentando passar uma variável para uma page.evaluate()função em Puppeteer , mas quando uso o seguinte exemplo muito simplificado, a variável evalVaré indefinida. Eu sou novo no Puppeteer e não consigo encontrar nenhum exemplo para construir, então preciso de ajuda para passar essa variável para a page.evaluate()função para que possa …



8
Como raspar mais rápido
O trabalho aqui é para raspar uma API um site que começa a partir https://xxx.xxx.xxx/xxx/1.jsonde https://xxx.xxx.xxx/xxx/1417749.jsone escrevê-lo exatamente para MongoDB. Para isso, tenho o seguinte código: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for n …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.