Forum
>>
Programmazione Python
>>
Web e Reti
>>
gestire errori di requests
Pagina: 1
Esegui il login per scrivere una risposta.
Pagina: 1
Scritto da Lime_In_The_Coconut |
2016-11-09 12:33:06 - gestire errori di requests
|
Ciao a tutti,
sto creando uno script che chiede all'utente di inserire una keyword, dopodichè apre la prima pagina dei risultati di ricerca di google, colleziona tutti i link dei risultati in una lista e, con i moduli BeautifulSoup e requests crea una nuova lista dove ciascun elemento è il codice sorgente della pagina. L'obiettivo successivo è analizzare ogni singola pagina (meta dati, testo, etc) ma per ora sono fermo a un problema. Per ogni richiesta non sempre ottengo un response 200. A volte mi arrivano errori 403 o TooManyRedirects. Addirittura in un link a cui lo script non riesce ad accedere, e che ho provato a inserire nella barra degli indirizzi, google mi dice "rileviamo traffico insolito proveniente dal tuo computer" Come posso gestire la cosa? Per lo meno aggirando il problema ignorando l'errore? Grazie --- Ultima modifica di Lime In The Coconut in data 2016-11-09 12:34:07 --- |
|
Scritto da Lime_In_The_Coconut |
2016-11-09 13:19:06 - Re: gestire errori di requests
|
ok per gestire il problema e non interrompere il programma faccio così:
request_list=[] for url in no_duplicate: try: res=requests.get(url) print(res) res.raise_for_status() soup2 = bs4.BeautifulSoup(res.text, "html5lib") request_list.append(soup2) except requests.exceptions.HTTPError: print("connessione non riuscita") except requests.exceptions.TooManyRedirects: print("TooManyRedirects")per ora va bene con gli errori che sto trovando e ottengo comunque una lista dove ciascun elemento è il codice sorgente di una pagina |
Pagina: 1
Esegui il login per scrivere una risposta.