Hallo zusammen,
vorneweg möchte ich erstmal mitteilen, dass ich neu in der Welt des Programmierens bin. Allerdings bin ich sehr ambitioniert, um von euch zu lernen und meine skills zu verbessern. Ich weiß auch nicht, ob dieses Forum noch aktiv ist, trotzdem stelle ich mal meine Frage.
Ich möchte mit python und BS4 eine Webseite scrapen.
Folgende Probleme habe ich dabei:
- Die Webseite gibt an um die 100k Daten zu beeinhalten. Über die Suche kommen allerdings nur ca. 5k zum vorschein. Das heißt die anderen sind versteckt und werden nicht angezeigt. Für mein Projekt brauche ich aber alle Daten
- Über Selenium funktioniert das Scraping nicht, da nach 2-3 Seiten eine Maske erscheint, die dich auffordert, dein Profil auf Premium zu upgraden.
Meine Frage ist, ob es eine Möglichkeit gibt, die Datenpakete irgendwie abzugreifen oder die Maske zu umgehen. Hat man Möglichkeiten ohne Selenium (jede Seite einzeln abzufragen), Daten über evtl. die Sitemap oder sonstiges abzugreifen?
Bin Dankbar für jede Hilfe. Und falls ich eine Forenregel nicht beachtet habe, bitte ich dies zu entschuldigen.