website crawling

Door sylvester vader op 23-08-2019 11:03 gewijzigd op 23-08-2019 11:46

1.991 views

hi uhm ik heb een klein probleempje en misschien kan iemand mij helpen

ik ben een crawlscript aan het maken om te kijken op welke positie een bepaalde advertentie staat op een andere website

dit script is voornamelijk bedoeld voor de adult wereld
denk ik hierbij
**specifieke adultsites**

enz

nou kan ik de meeste van die sites wel crawlen maar op 1 of andere manier kan ik geen info ontvangen van **een bepaalde andere site**

kan iemand met meer verstand hierin dit uitzoeken?

curl werkte bij mij niet en file_get_html ook niet

maar misschien doe ik iets fout

Ariën

23-08-2019 11:50 gewijzigd op 23-08-2019 11:52

Kan je vertellen wat er fout gaat? Het is nu behoorlijk gokken. En onthoud ook dat scrapen van websites niet altijd gewenst is, en mogelijk tot consequenties kan leiden.

sylvester vader

23-08-2019 12:15

exuses exuses even niet aan gedacht

uhm wat gaat er fout nou uhm niks :P
ik krijg gewoon helemaal niks

ik heb nu een aantal scripts getest die ik heb gevonden op internet en ik krijg van die ene site gewoon helemaal niks

misschien hebben hun dit wel beveiligd hoor maar ik vroeg het mij gewoon af of iemand misschien een andere manier had

Ariën

23-08-2019 12:16

Dan zal het een beveiliging zijn. Maar daar kunnen we je niet bij helpen. Het enige wat we kunnen zeggen is dat je met die site contact moet opnemen.

sylvester vader

23-08-2019 12:18

heb ik al gedaan :)

Rob Doemaarwat

23-08-2019 15:45

Misschien wordt de content asynchroon geladen. De initiële HTML bevat dan alleen een placeholder, en de content komt via een asynchrone call (in JSON formaat). In dat geval zou je gewoon die asynchrone call kunnen replayen.

Thomas van den Heuvel

23-08-2019 17:10

En alle content zal doorgaans via HTTP[color=#ff0000]S[/color] geserveerd worden.

cURL en file_get_contents() (file_get_html() bestaat niet...) zullen dus mogelijk niet zomaar out-of-the-box werken, hier moet je echt rekening houden met en de stappen doorlopen voor HTTPS.

En dan zullen dit soort sites beducht zijn voor scrapers. Als jij dus een HTTP-request doet waarbij deze in de verste verte niet afkomstig lijkt van een normale user agent (browser), dan wordt je request misschien al meteen neergeschoten.

Ivo P

24-08-2019 12:33

kijk ook eens naar welke http-code je terug krijgt van zo'n site.

404 voor not-found
maar er zijn ook meldingen voor "bad request", "geen toegang" en "forbidden".

Dat verraadt mogelijk ook nog iets.

sylvester vader

25-08-2019 09:30

Thomas van den Heuvel op 23/08/2019 17:10:25

(file_get_html() bestaat niet...)

bestaat wel hoor :)

[size=xsmall]Toevoeging op 25/08/2019 09:32:21:[/size]

ps: Ivo P ik krijg niks binnen maar ik zal ff in me netwerk console ding kijken dat heb ik nog niet gedaan

Ivo P

25-08-2019 09:38

zie https://www.php.net/manual/en/function.curl-getinfo.php

sylvester vader

25-08-2019 10:30

haha of zo ja :P

[size=xsmall]Toevoeging op 25/08/2019 10:38:42:[/size]

ok lol ik wordt verwezen naar me eigen 404 pagina
en in console krijg ik deze error

GET _Incapsula_Resource?SWUDNSAI=29&xinfo=4-43414976-0%200NNN%20RT%281566722178764%2092%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%284%2c315%2c0%29%20U18&incident_id=277001820071552353-228678425522801508&edet=12&cinfo=04000000 404

[size=xsmall]Toevoeging op 25/08/2019 10:40:59:[/size]

betekent dit dat ze alleen bepaalde robots accepteren?

Reageren

Inloggen om te reageren