Парсинг сайтов (HTML)

Парсинг HTML происходит через библиотеку Beautiful Soup. Установить библиотеку можно через команду ниже:

python3 -m pip install beautifulsoup4
python3 -m pip install requests

На примере выше также установится библиотека requests, которая нужна для получения HTML-сайта.

Получить HTML сайта можно через код ниже:

import requests
from bs4 import BeautifulSoup

response = requests.get("https://know-online.com/")
soup = BeautifulSoup(response.text, 'html.parser')

soup # HTML-код сайта

Пример использования:

# выбрать тег
soup.title # <title>Know Online — уроки веб-программирования | Know-Online.com</title>

# содержимое тега
soup.title.string # Know Online — уроки веб-программирования | Know-Online.com

# родительские тег
soup.title.parent.name # head

# Найти тег с указанным классом или ид
soup.find("div", class_="class-name")
soup.find(id="id-name")

# Найти все ссылки
soup.find_all("a")

Вывести все ссылки можно через код ниже:

links = soup.find_all("a")
for link in links:
    print(link.get("href"))

Обновлено: 21 января 2021