Zoals ik het lees: Het scrapen van een site an sich is (meestal) niet verboden (tenzij het expliciet in de voorwaarden staat), het gaat er meer om wat je later met die data gaat doen.
Uit persoonlijke ervaring zit er ook wel heel veel verschil tussen scrapers:
- Je hebt ze die elke 5 seconden een pagina opvragen (dezelfde pagina - om te kijken of er al "iets nieuws" is, om dan de eerste te zijn die reageert), de hele dag door. Die krijgen meteen een perma-ban aan de broek. Dito voor die gasten die even een "kopie" van je hele site komen maken (vanaf een heel cluster aan IP-adressen, voor vele uren).
- Hobbyisten die gewoon wat data op willen vragen voor eigen gebruik, en daarvoor een paar keer per dag een bepaalde pagina opvragen. Naast het feit dat dit amper te detecteren is vind ik dat verder ook prima (als ze de hele dag op F5 gaan zitten rammen heb je er meer werk aan, omdat er dan veel meer dan enkel HTML naar de overkant moet).
Wat @Rob zegt. De pagina in het andere topic is gewoon rechtstreeks toegankelijk, het is niet alsof dit content is waar je voor betaalt die je vervolgens probeert te rippen of wat dan ook.
Scrapen is eigenlijk wel het laatste redmiddel waar je naar zou moeten grijpen. Je zou ook eenmalig de content kunnen ophalen en vervolgens met andere middelen (HEAD? E-Tag?) kunnen checken of content (inhoudelijk) is veranderd.
Een andere reden dat er gescraped wordt is het ontbreken van een fatsoenlijke (desnoods betaalde) API/webservice via welke je op een fatsoenlijke wijze informatie kunt opvragen.
Ik probeer inderdaad een Web Scraper te maken voor Medium. Ik vind het een leuke uitdaging om artikelen en teksten van een andere website zo goed mogelijk over te nemen.
Uiteraard is dit alleen voor eigen gebruik.
Ariën, bedankt voor je antwoord. Ik ben nu een stap verder.
En dit is ook een methode om gegevens die op een speciale url gezet worden in te lezen. Bijvoorbeeld weersgegevens. Via JQUERY in programma te gebruiken,