Herramientas de usuario

Herramientas del sitio


notas:programacion:python:webscraping:beautifulsoup

Beautiful Soup

Beautiful Soup es una biblioteca de Python para analizar documentos HTML. Esta biblioteca crea un árbol con todos los elementos del documento y puede ser utilizado para extraer información

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup as bs #A partir de ahora nos referimos a BeautifulSoup como 'bs'
import requests
url = "https://www.xataka.com/record/20"
cont = 0 #Contador, lo usaremos mas adelante
#Realizamos la peticion a la pagina
req = requests.get(url)
 
if req.status_code== 200:
	html = bs(req.text, "html.parser") #Pasamos el contenido HTML a un objeto BeautifulSoup()
	# Obtenemos todos los articulos del primer tipo
	entradas = html.find_all('article', {'class': 'recent-abstract abstract-article'})
	# Lo mismo con el segundo tipo de articulos (los de la imagen mas grande)
	entradas2 = html.find_all('article', {'class': 'recent-abstract abstract-article m-featured'})
	#Agregamos cada item de la segunda lista de articulos a la primer lista
	for item in entradas2:
		entradas.append(item)
 
# Recorremos todas las entradas para extraer el titulo y link
for item in entradas:
	cont += 1 #Contador autoincremental para llevar registro de la cantidad de articulos
	titulo = item.find('h2', {'class': 'abstract-title'}).getText()
	link = item.find('a').get('href')
	# Imprimo el Titulo y link de las entradas
	print("Id........: %d" % cont)
	print("Titulo....: " + titulo)
	print("Link:.....: " + link)
	print("___________________________")

Ref.: UnderDocs #01

notas/programacion/python/webscraping/beautifulsoup.txt · Última modificación: 2019/08/21 17:50 por cayu