26 februari 2024

Zo kun je websites scrapen met ChatGPT en tips van Just Vervaart

Websites scrapen met Python

Nerd alert! Toen ik de smaak te pakken had met Python wilde ik nog meer doen. Ik hoorde altijd dat je via Python ook websites kon scrapen. Dit betekent simpelweg dat je onderdelen van een site gestructureerd kunt opslaan. Als je bijvoorbeeld de top-100 beste films wilt opslaan van IMDb, dan kun je dat niet met copy/paste doen op een makkelijke manier. Via deze handleiding lukte het me uiteindelijk wel om er na een uur een script voor te maken zodat ik in Excel nummer 1 tot 100 en de filmnaam had.

Just vond database van storingen Geldmaat

Bovenstaand artikel verscheen vrijdag op de site van de NOS en zou er niet zijn geweest als Just Vervaart van Bureau Regio de techniek van het scrapen niet had aangeleerd. Hij maakte er al eerder mooie journalistieke producties mee en door zijn werk heeft Geldmaat nu aangekondigd cijfers te gaan openbaren. Just bevestigt dat AI je enorm kan helpen met Python:

Je hoeft geen Python te kunnen programmeren om complexe websites te scrapen. Generatieve AI zoals ChatGPT en Google Gemini kunnen die code prima voor je schrijven. Het helpt wel als je wat programmeer ervaring hebt of als logisch nadenken je goed af gaat. Specificeer je vraag voor de AI zo duidelijk mogelijk. Geef aan wat je wilt bereiken en geef zoveel mogelijk informatie over de website. Bijvoorbeeld een deel van de HTML of de structuur van een API. Als je een foutmelding krijgt geef je die terug aan de AI en die komt meestal met een werkende oplossing. Om Python-scripts uit te voeren kun je gebruik maken van Google Colab. Dat is een online omgeving met een aantal beperkingen, maar prima voor je eerste stapjes.’

Just maakte via deze techniek eerder nieuws, want kwam er in het najaar achter dat geldautomaten veel vaker in storing zijn dan banken hebben beloofd. Door de database van Geldmaat te scrapen, wist hij hoe vaak er een storing was. Hier legt hij uit hoe hij dat deed. Op LinkedIn legt hij gespecificeerd uit hoe hij dit deed.

Via deze techniek kwam hij er ook achter dat noodoproepen voor vrijwilligers om te komen helpen bij een hartstilstand steeds vaker leiden tot resultaat.

Ik noemde dit onderzoek al eens in deze nieuwsbrief en hoop me deze techniek ook snel eigen te maken of nieuwe voorbeelden van anderen met jullie te kunnen delen.

Wil je iedere zondag om 8u ook gratis de nieuwsbrief ontvangen? Schrijf je hier in!