Bot crawler maken om domein namen op te slaan?
Beste forumleden,
Ik heb een website waar je websites kan reviewen, nu is het zo dat pas als iemand zoekt op onze website dat het domein wordt opgeslagen maar nu leek het ons mooi om een bot te maken die het web afspeurt en elk domein dat het tegenkomt opslaat in de database zodat als iemand zoekt op onze website er een 100% kans is dat de website gevonden wordt...
Is dit mogelijk en hoe moelijk is dit in php?
Ik heb een website waar je websites kan reviewen, nu is het zo dat pas als iemand zoekt op onze website dat het domein wordt opgeslagen maar nu leek het ons mooi om een bot te maken die het web afspeurt en elk domein dat het tegenkomt opslaat in de database zodat als iemand zoekt op onze website er een 100% kans is dat de website gevonden wordt...
Is dit mogelijk en hoe moelijk is dit in php?
Waarom denk je dat een database vullen met alle hostnamen sneller en beter werkt dan een DNS-lookup?
OF je doet zoiets als iemand een nog onbekende hostnaam invult:
https://css-tricks.com/snippets/php/check-if-website-is-available/
OF je doet zoiets als iemand een nog onbekende hostnaam invult:
https://css-tricks.com/snippets/php/check-if-website-is-available/
Dat tweede doen we nu dus, checken of host bestaat, zo niet voer hem in maar dit gebeurd dus enkel als een gebruiker dit doet.
Wij willen het automatiseren, dus alle domeinen die bestaan invoeren in de database zodat als een gebruiker zoekt op de website die altijd gevonden zal worden.
Moelijk te maken?
Wij willen het automatiseren, dus alle domeinen die bestaan invoeren in de database zodat als een gebruiker zoekt op de website die altijd gevonden zal worden.
Moelijk te maken?
Ik denk dat het een hoop onnodig werk is. Want waarom zou je alles willen indexeren? Ben je bang dat gebruiker een typfout maken in de URL? In dat geval kan je altijd een nslookup doen. Eventueel kan je via AJAX de meta-tags ophalen om de gebruiker nog eens goed te laten controleren of het inderdaad de juiste site is die hij gaat voorzien van een review.
En verder bestaat het internet uit vele miljoenen domeinen met vele extenties. Wou je dat allemaal indexeren?
En verder bestaat het internet uit vele miljoenen domeinen met vele extenties. Wou je dat allemaal indexeren?
>> En verder bestaat het internet uit vele miljoenen domeinen met vele extenties. Wou je dat allemaal indexeren?
Dit. Je gaat gigantische hoeveelheden bandbreedte verstoken, en het gaat ontzettend lang duren. Er komen sneller websites bij dan dat je kan bijhouden.
Dit. Je gaat gigantische hoeveelheden bandbreedte verstoken, en het gaat ontzettend lang duren. Er komen sneller websites bij dan dat je kan bijhouden.
Ik ken iemand die een dergelijk project gestart is een jaar of zes geleden. En die heeft iets van miljoen websites geindexeerd. Uiteindelijk was het zo een aanzienlijk project en werd er een hoop dataverkeer gegenereerd dat hij maar gestopt is.
Verder moet je ook rekening met diverse dingen houden.
Niet iedereen wil zijn website ook indexeren bij jouw, wat als een domein niet bereikbaar is vanwege DNS-problemen, hoe voorkom je een kleine dos-attack door al je requests?
Ik durf te wedden dat de moeite niet opweegt met wat je wilt bereiken. Ik denk dat je beter mensen zelf de domein in moet laten vullen en met een autosuggest je gasten de juiste suggestie kan geven welke site ze bedoelen.
Verder moet je ook rekening met diverse dingen houden.
Niet iedereen wil zijn website ook indexeren bij jouw, wat als een domein niet bereikbaar is vanwege DNS-problemen, hoe voorkom je een kleine dos-attack door al je requests?
Ik durf te wedden dat de moeite niet opweegt met wat je wilt bereiken. Ik denk dat je beter mensen zelf de domein in moet laten vullen en met een autosuggest je gasten de juiste suggestie kan geven welke site ze bedoelen.
Meestal heb je ook eerst een website die je hebt bezocht en dan schrijf je een review. Je gaat een site niet bezoeken om te reviewen tenzij iemand anders dit al heeft gedaan en dat maakt jou dan nieuwsgierig naar deze site. Op voorhand "alle" sites proberen te indexeren (al dan niet voor dit doel) lijkt mij onzinnig.
En wat @Ariën zegt, honoreert jouw crawler robots.txt en/of meta tags?
En wat @Ariën zegt, honoreert jouw crawler robots.txt en/of meta tags?
Het grootste voordeel van het indexeren van zoveel mogelijk websites is op SEO gebied. Als je zou zoeken op "<website> beoordelingen" kom je indien goed opgezet bij ons uit, nu is dit enkel voor de handmatig geregistreerde domeinen.
Wellicht kan ik het beperken door enkel .nl domeinen te crawlen en op te slaan?
Wellicht kan ik het beperken door enkel .nl domeinen te crawlen en op te slaan?
De vraag is: Staat iedereen er op te wachten om zijn URL bij jullie automatisch te laten indexeren?
>> Het grootste voordeel van het indexeren van zoveel mogelijk websites is op SEO gebied. Als je zou zoeken op "<website> beoordelingen" kom je indien goed opgezet bij ons uit, nu is dit enkel voor de handmatig geregistreerde domeinen.
En dat is logisch, want je hebt voor de niet geregistreerde domeinen toch geen data. Wat is de meerwaarde dan? Mensen gaan zich hooguit zitten ergeren dat je geen beoordeling hebt. En daarbij: waarom zou je die zoekterm ooit in een zoekmachine gooien, tenzij het een webwinkel betreft?
En dat is logisch, want je hebt voor de niet geregistreerde domeinen toch geen data. Wat is de meerwaarde dan? Mensen gaan zich hooguit zitten ergeren dat je geen beoordeling hebt. En daarbij: waarom zou je die zoekterm ooit in een zoekmachine gooien, tenzij het een webwinkel betreft?




