hi uhm ik heb een klein probleempje en misschien kan iemand mij helpen

ik ben een crawlscript aan het maken om te kijken op welke positie een bepaalde advertentie staat op een andere website

dit script is voornamelijk bedoeld voor de adult wereld
denk ik hierbij
**specifieke adultsites**

enz

nou kan ik de meeste van die sites wel crawlen maar op 1 of andere manier kan ik geen info ontvangen van **een bepaalde andere site**

kan iemand met meer verstand hierin dit uitzoeken?

curl werkte bij mij niet en file_get_html ook niet

maar misschien doe ik iets fout


Kan je vertellen wat er fout gaat? Het is nu behoorlijk gokken. En onthoud ook dat scrapen van websites niet altijd gewenst is, en mogelijk tot consequenties kan leiden.
exuses exuses even niet aan gedacht

uhm wat gaat er fout nou uhm niks :P
ik krijg gewoon helemaal niks

ik heb nu een aantal scripts getest die ik heb gevonden op internet en ik krijg van die ene site gewoon helemaal niks

misschien hebben hun dit wel beveiligd hoor maar ik vroeg het mij gewoon af of iemand misschien een andere manier had


Dan zal het een beveiliging zijn. Maar daar kunnen we je niet bij helpen. Het enige wat we kunnen zeggen is dat je met die site contact moet opnemen.
Misschien wordt de content asynchroon geladen. De initiële HTML bevat dan alleen een placeholder, en de content komt via een asynchrone call (in JSON formaat). In dat geval zou je gewoon die asynchrone call kunnen replayen.
En alle content zal doorgaans via HTTP[color=#ff0000]S[/color] geserveerd worden.

cURL en file_get_contents() (file_get_html() bestaat niet...) zullen dus mogelijk niet zomaar out-of-the-box werken, hier moet je echt rekening houden met en de stappen doorlopen voor HTTPS.

En dan zullen dit soort sites beducht zijn voor scrapers. Als jij dus een HTTP-request doet waarbij deze in de verste verte niet afkomstig lijkt van een normale user agent (browser), dan wordt je request misschien al meteen neergeschoten.
kijk ook eens naar welke http-code je terug krijgt van zo'n site.

404 voor not-found
maar er zijn ook meldingen voor "bad request", "geen toegang" en "forbidden".

Dat verraadt mogelijk ook nog iets.
Thomas van den Heuvel op 23/08/2019 17:10:25

(file_get_html() bestaat niet...)


bestaat wel hoor :)

[size=xsmall]Toevoeging op 25/08/2019 09:32:21:[/size]

ps: Ivo P ik krijg niks binnen maar ik zal ff in me netwerk console ding kijken dat heb ik nog niet gedaan
haha of zo ja :P

[size=xsmall]Toevoeging op 25/08/2019 10:38:42:[/size]

ok lol ik wordt verwezen naar me eigen 404 pagina
en in console krijg ik deze error

GET _Incapsula_Resource?SWUDNSAI=29&xinfo=4-43414976-0%200NNN%20RT%281566722178764%2092%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%284%2c315%2c0%29%20U18&incident_id=277001820071552353-228678425522801508&edet=12&cinfo=04000000 404

[size=xsmall]Toevoeging op 25/08/2019 10:40:59:[/size]

betekent dit dat ze alleen bepaalde robots accepteren?

Reageren