Парсинг сайтов (HTML)
Парсинг HTML происходит через библиотеку Beautiful Soup. Установить библиотеку можно через команду ниже:
python3 -m pip install beautifulsoup4 python3 -m pip install requests
На примере выше также установится библиотека requests, которая нужна для получения HTML-сайта.
Получить HTML сайта можно через код ниже:
import requests from bs4 import BeautifulSoup response = requests.get("https://know-online.com/") soup = BeautifulSoup(response.text, 'html.parser') soup # HTML-код сайта
Пример использования:
# выбрать тег soup.title # <title>Know Online — уроки веб-программирования | Know-Online.com</title> # содержимое тега soup.title.string # Know Online — уроки веб-программирования | Know-Online.com # родительские тег soup.title.parent.name # head # Найти тег с указанным классом или ид soup.find("div", class_="class-name") soup.find(id="id-name") # Найти все ссылки soup.find_all("a")
Вывести все ссылки можно через код ниже:
links = soup.find_all("a") for link in links: print(link.get("href"))