Shromáždění dat, známé také jako web scraping nebo extrakce dat, zahrnuje stahování a extrakci informací z webových stránek. Následující návod popisuje, jak naprogramovat shromáždění dat v jazyce Python:
- Instalace knihoven: Nejprve nainstalujte potřebné knihovny. Pro tento účel budeme používat knihovny
requests
aBeautifulSoup
. Instalujte je pomocí pip:
pip install requests
pip install beautifulsoup4
- Importujte knihovny: Importujte knihovny do svého Python skriptu:
import requests
from bs4 import BeautifulSoup
- Stáhněte webovou stránku: Použijte knihovnu
requests
k získání HTML obsahu webové stránky:
url = "https://example.com"
response = requests.get(url)
# Zkontrolujte, zda je odpověď úspěšná (kód 200)
if response.status_code == 200:
html_content = response.text
else:
print(f"Chyba při stahování stránky: {response.status_code}")
- Zpracujte HTML obsah: Použijte knihovnu
BeautifulSoup
k zpracování HTML obsahu a extrakci informací:
soup = BeautifulSoup(html_content, "html.parser")
# Příklad: extrakce všech odkazů na stránce
links = []
for a_tag in soup.find_all("a"):
link = a_tag.get("href")
links.append(link)
print(links)
- Uložte extrahovaná data: Uložte extrahovaná data do souboru nebo databáze podle potřeby. Například můžete uložit odkazy do CSV souboru:
import csv
with open("links.csv", "w", newline="", encoding="utf-8") as csvfile:
writer = csv.writer(csvfile)
writer.writerow(["Link"])
for link in links:
writer.writerow([link])
- Rozšiřte pro více stránek: Pokud chcete shromáždit data z více stránek, můžete rozšířit tento kód o cykly a funkce pro automatické procházení a extrakci informací.
Upozornění: Při shromažďování dat z webových stránek je důležité dodržovat jejich soubory robots.txt
a respektovat autorská práva a ochranu osobních údajů. Navíc se snažte minimalizovat počet požadavků, abyste nezatěžovali servery cílových webových stránek. V některých případech můžete také zvážit použití oficiálních API namísto web scrapingu.