Zum Inhalt wechseln

Als Gast hast du nur eingeschränkten Zugriff!


Anmelden 

Benutzerkonto erstellen

Du bist nicht angemeldet und hast somit nur einen sehr eingeschränkten Zugriff auf die Features unserer Community.
Um vollen Zugriff zu erlangen musst du dir einen Account erstellen. Der Vorgang sollte nicht länger als 1 Minute dauern.

  • Antworte auf Themen oder erstelle deine eigenen.
  • Schalte dir alle Downloads mit Highspeed & ohne Wartezeit frei.
  • Erhalte Zugriff auf alle Bereiche und entdecke interessante Inhalte.
  • Tausche dich mich anderen Usern in der Shoutbox oder via PN aus.
 

   

Foto

Python Webscraping

- - - - -

  • Bitte melde dich an um zu Antworten
Eine Antwort in diesem Thema

#1
AxelSpringer

AxelSpringer

    Leecher

  • Members
  • PIP
  • Likes
    0
  • 1 Beiträge
  • 0 Bedankt

Hallo zusammen,

 

vorneweg möchte ich erstmal mitteilen, dass ich neu in der Welt des Programmierens bin. Allerdings bin ich sehr ambitioniert, um von euch zu lernen und meine skills zu verbessern. Ich weiß auch nicht, ob dieses Forum noch aktiv ist, trotzdem stelle ich mal meine Frage.

 

Ich möchte mit python und BS4 eine Webseite scrapen.

Folgende Probleme habe ich dabei:

 

  1. Die Webseite gibt an um die 100k Daten zu beeinhalten. Über die Suche kommen allerdings nur ca. 5k zum vorschein. Das heißt die anderen sind versteckt und werden nicht angezeigt. Für mein Projekt brauche ich aber alle Daten
  2. Über Selenium funktioniert das Scraping nicht, da nach 2-3 Seiten eine Maske erscheint, die dich auffordert, dein Profil auf Premium zu upgraden.

Meine Frage ist, ob es eine Möglichkeit gibt, die Datenpakete irgendwie abzugreifen oder die Maske zu umgehen. Hat man Möglichkeiten ohne Selenium (jede Seite einzeln abzufragen), Daten über evtl. die Sitemap oder sonstiges abzugreifen?

 

Bin Dankbar für jede Hilfe. Und falls ich eine Forenregel nicht beachtet habe, bitte ich dies zu entschuldigen.



#2
TaubenLiebhaber

TaubenLiebhaber

    Leecher

  • Members
  • PIP
  • Likes
    0
  • 2 Beiträge
  • 0 Bedankt

Ohne den Aufbau und die Struktur der betreffenden Seite zu kennen, ist es schwer eine genaue Aussage zu treffen.
Gern kannst du mir, falls du möchtest, dazu eine PM senden.

Ansonsten kannst du dein Script gerne auch hier reinstellen, dann können andere draufschauen und dir Tipps geben.

Generell würde ich sagen, dass in deinem Script eine Funktion benötigt wird, welche die Session zurücksetzt. Also eventuelle Cookies, damit du als neuer Besucher der Webseite angesehen wirst. Eventuell sind auch Proxys nötig.





  Thema Forum Themenstarter Statistik Letzter Beitrag

Besucher die dieses Thema lesen:

Mitglieder: , Gäste: , unsichtbare Mitglieder:


This topic has been visited by 9 user(s)


    Avni, AxelSpringer, Blackhook, Bot4ng, CyberFlash, dingoman196, FrogPussyGreen, Smn, TaubenLiebhaber
Die besten Hacking Tools zum downloaden : Released, Leaked, Cracked. Größte deutschsprachige Hacker Sammlung.