Simple dom werkt niet

Overzicht

Sponsored by: Vacatures door Monsterboard

Daniel van Seggelen

Daniel van Seggelen

21/11/2018 09:03:28
Anchor link
Edit:
Code verwijderd.
Laten we niemand wijzer maken dan ze al zijn bij het ongeoorloofd scrapen van telefoonnummers. Niemand heeft hier baat bij...


De eerste keer krijg ik wel wat html, maar uiteindelijk niet meer, geen fouten ook, maar $html is leeg, wat doe ik nu verkeerd?

Ik heb dat alleen met die url andere urls werken wel,
Gewijzigd op 22/11/2018 00:47:58 door - Ariën -
 
PHP hulp

PHP hulp

17/12/2018 21:42:20
 
Thomas van den Heuvel

Thomas van den Heuvel

21/11/2018 16:27:07
Anchor link
Zet ff bovenstaande code tussen [code][/code] tags, dat leest wat makkelijker...

Mogelijk is dit gerelateerd aan beveiligde sites (https) en mis je wat functionaliteit om hiermee te communiceren.

Of moet je je cURL settings wat veranderen. Daar wordt tevens aangehaald dat het uit veiligheidsoverwegingen een slecht idee is om VERIFYHOST en VERIFYPEER uit te schakelen.

Ook wordt daar een andere mogelijkheid aangehaald: de site in kwestie redirect, dus zorg dat FOLLOWLOCATION aan staat.

Dit alles kostte mij minder dan 5 minuten Googlen met de zoekopdracht "php curl cannot read from secure site", bovenstaand artikel was het eerste resultaat...
 
Daniel van Seggelen

Daniel van Seggelen

21/11/2018 22:22:02
Anchor link
Je snapt het niet, die dingen zijn allemaal al geprobeert, niks te maken met https bijv, dit heeft te maken met :

<div id="distilIdentificationBlock">&nbsp;</div>

Dit krijg ik terug en is een nieuw beveiligingsmechanisme.

Is dit te omzeilen?

Toevoeging op 21/11/2018 22:24:31:

EN zoals ik zei, het werkt de eerste ker , maar bij een aantal refreshes blijkt het weer dezelfde problemen te geven.
 
Ozzie PHP

Ozzie PHP

21/11/2018 22:29:33
Anchor link
Daniel van Seggelen op 21/11/2018 22:22:02:
Je snapt het niet ... dit heeft te maken met :

<div id="distilIdentificationBlock">&nbsp;</div>

Waarom geef je die informatie dan niet meteen in je beginpost in plaats van te gaan klagen dat iemand 'het niet snapt'. Hoe duidelijker je zelf bent in je vraagstelling, een des te duidelijker antwoord je kunt verwachten.

Je moet niet zelf halve informatie geven en vervolgens gaan roepen dat de ander het niet snapt.


>> Dit krijg ik terug en is een nieuw beveiligingsmechanisme.

Dan is het klaarblijkelijk niet de bedoeling dat jij die informatie gaat lopen scrapen.
Gewijzigd op 21/11/2018 22:31:25 door Ozzie PHP
 
- Ariën -
Beheerder

- Ariën -

21/11/2018 22:32:54
Anchor link
Daniel van Seggelen op 21/11/2018 22:22:02:
Je snapt het niet, die dingen zijn allemaal al geprobeert, niks te maken met https bijv, dit heeft te maken met :

<div id="distilIdentificationBlock">&nbsp;</div>

Dit krijg ik terug en is een nieuw beveiligingsmechanisme.
Is dit te omzeilen?

En dan vraag ik me af of we hieraan willen meewerken?
De beveiliging is er immers niet voor niks.

Mijn beste advies: Vraag de beheerders van de website om hulp. Wie weet hebben ze wel een verborgen API die je onder bepaalde omstandigheden mag gebruiken.
 
Daniel van Seggelen

Daniel van Seggelen

21/11/2018 23:34:42
Anchor link
"Waarom geef je die informatie dan niet meteen in je beginpost in plaats van te gaan klagen dat iemand 'het niet snapt'."

Omdat ik die informatie pas in de source terugkreeg en daar onderzoek naar ben gaan doen:
Hier staat er ook meer over:

https://www.reddup.co/r/HowToHack/comments/90hvo7/how_to_scrape_web_pages_which_detect_for_bots

Dus voor de huidige update:
Hij werkt via een nieuw ip wel, maar ook maar van korte duur(5 seconde), via proxies in curl niet, uiteindelijk is het geblokt.

gaat gewoon om de telefoongids, in plaats van alle openbare adressen, telefoonnummers etc invoeren, probeer ik de scraper te maken.
 
Ben van Velzen

Ben van Velzen

22/11/2018 00:23:35
Anchor link
En dat willen ze heel erg niet hebben. Nogal logisch dat je dan daar tegenaan loopt.
Vraag gewoon of ze een API hebben. Anders is het jammer maar helaas. Tenzij je wil dat ze meer stappen gaan ondernemen buiten geautomatiseerd blokkeren.
 
- Ariën -
Beheerder

- Ariën -

22/11/2018 00:33:00
Anchor link
Daniel van Seggelen op 21/11/2018 23:34:42:
gaat gewoon om de telefoongids, in plaats van alle openbare adressen, telefoonnummers etc invoeren, probeer ik de scraper te maken.

En dat willen ze dus voorkomen, ik weet niet wat je doel is, maar zoiets kan ook misbruikt worden voor telefoonoverlast en dergelijke.

Ik brei er maar een eind aan, want dit moeten we gewoon niet faciliteren op PHPhulp.
 
 

Dit topic is gesloten.



Overzicht

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.