Bot crawler maken om domein namen op te slaan?

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Furio Scripting

Furio Scripting

11/04/2017 11:13:51
Quote Anchor link
Beste forumleden,

Ik heb een website waar je websites kan reviewen, nu is het zo dat pas als iemand zoekt op onze website dat het domein wordt opgeslagen maar nu leek het ons mooi om een bot te maken die het web afspeurt en elk domein dat het tegenkomt opslaat in de database zodat als iemand zoekt op onze website er een 100% kans is dat de website gevonden wordt...

Is dit mogelijk en hoe moelijk is dit in php?
 
PHP hulp

PHP hulp

19/04/2024 10:06:01
 
Ward van der Put
Moderator

Ward van der Put

11/04/2017 11:39:35
Quote Anchor link
Waarom denk je dat een database vullen met alle hostnamen sneller en beter werkt dan een DNS-lookup?

OF je doet zoiets als iemand een nog onbekende hostnaam invult:

https://css-tricks.com/snippets/php/check-if-website-is-available/
 
Furio Scripting

Furio Scripting

11/04/2017 12:10:57
Quote Anchor link
Dat tweede doen we nu dus, checken of host bestaat, zo niet voer hem in maar dit gebeurd dus enkel als een gebruiker dit doet.

Wij willen het automatiseren, dus alle domeinen die bestaan invoeren in de database zodat als een gebruiker zoekt op de website die altijd gevonden zal worden.

Moelijk te maken?
 
- Ariën  -
Beheerder

- Ariën -

11/04/2017 13:02:34
Quote Anchor link
Ik denk dat het een hoop onnodig werk is. Want waarom zou je alles willen indexeren? Ben je bang dat gebruiker een typfout maken in de URL? In dat geval kan je altijd een nslookup doen. Eventueel kan je via AJAX de meta-tags ophalen om de gebruiker nog eens goed te laten controleren of het inderdaad de juiste site is die hij gaat voorzien van een review.

En verder bestaat het internet uit vele miljoenen domeinen met vele extenties. Wou je dat allemaal indexeren?
 
Ben van Velzen

Ben van Velzen

11/04/2017 13:09:08
Quote Anchor link
>> En verder bestaat het internet uit vele miljoenen domeinen met vele extenties. Wou je dat allemaal indexeren?
Dit. Je gaat gigantische hoeveelheden bandbreedte verstoken, en het gaat ontzettend lang duren. Er komen sneller websites bij dan dat je kan bijhouden.
 
- Ariën  -
Beheerder

- Ariën -

11/04/2017 13:55:22
Quote Anchor link
Ik ken iemand die een dergelijk project gestart is een jaar of zes geleden. En die heeft iets van miljoen websites geindexeerd. Uiteindelijk was het zo een aanzienlijk project en werd er een hoop dataverkeer gegenereerd dat hij maar gestopt is.

Verder moet je ook rekening met diverse dingen houden.
Niet iedereen wil zijn website ook indexeren bij jouw, wat als een domein niet bereikbaar is vanwege DNS-problemen, hoe voorkom je een kleine dos-attack door al je requests?

Ik durf te wedden dat de moeite niet opweegt met wat je wilt bereiken. Ik denk dat je beter mensen zelf de domein in moet laten vullen en met een autosuggest je gasten de juiste suggestie kan geven welke site ze bedoelen.
 
Thomas van den Heuvel

Thomas van den Heuvel

11/04/2017 15:07:05
Quote Anchor link
Meestal heb je ook eerst een website die je hebt bezocht en dan schrijf je een review. Je gaat een site niet bezoeken om te reviewen tenzij iemand anders dit al heeft gedaan en dat maakt jou dan nieuwsgierig naar deze site. Op voorhand "alle" sites proberen te indexeren (al dan niet voor dit doel) lijkt mij onzinnig.

En wat @Ariën zegt, honoreert jouw crawler robots.txt en/of meta tags?
 
Furio Scripting

Furio Scripting

11/04/2017 16:24:45
Quote Anchor link
Het grootste voordeel van het indexeren van zoveel mogelijk websites is op SEO gebied. Als je zou zoeken op "<website> beoordelingen" kom je indien goed opgezet bij ons uit, nu is dit enkel voor de handmatig geregistreerde domeinen.

Wellicht kan ik het beperken door enkel .nl domeinen te crawlen en op te slaan?
 
- Ariën  -
Beheerder

- Ariën -

11/04/2017 17:34:11
Quote Anchor link
De vraag is: Staat iedereen er op te wachten om zijn URL bij jullie automatisch te laten indexeren?
 
Ben van Velzen

Ben van Velzen

11/04/2017 18:03:08
Quote Anchor link
>> Het grootste voordeel van het indexeren van zoveel mogelijk websites is op SEO gebied. Als je zou zoeken op "<website> beoordelingen" kom je indien goed opgezet bij ons uit, nu is dit enkel voor de handmatig geregistreerde domeinen.
En dat is logisch, want je hebt voor de niet geregistreerde domeinen toch geen data. Wat is de meerwaarde dan? Mensen gaan zich hooguit zitten ergeren dat je geen beoordeling hebt. En daarbij: waarom zou je die zoekterm ooit in een zoekmachine gooien, tenzij het een webwinkel betreft?
 



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.