Site Crawler en Checker

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Steen

steen

26/09/2009 17:37:00
Quote Anchor link
Beste PHP'ers,

Ik wil graag een sitecrawler maken/gebruiken om een lijst van Nederlandse site's samen te stellen om deze daarna te controleren op het aanwezig zijn van een bepaald bestand (robots.txt). Om daarna te weergeven welke site's dit hebben. Daarnaast wil ik een ander bestand controleren.

- Hoe kan ik een lijst maken van Nederlandse site's?
- Hoe kan ik controleren of robots.txt niet doorverwijst naar bijvoorbeeld de sitemap of een andere pagina?
 
PHP hulp

PHP hulp

20/04/2024 04:01:55
 
Jan Willem van der Veer

Jan Willem van der Veer

26/09/2009 18:01:00
Quote Anchor link
Ja, hoe maak je een lijst van Nederlandse sites:
De mogelijke oplossingen zijn
- Een bestand met op elke regel een sitename
- In PHP een array maken met de sitenames als inhoud.
- Een tabel in een database...

Hoe je kan checken of er niet doorverwezen wordt:
De status checken van het bestand wat je terug krijgt bij de eerste call. En geen locaties volgen die meegegeven worden. Status 200 laat zien dat het een goed bestand is. Alle andere statussen laten zien dat er iets bijzonders aan de hand is.
 
Steen

steen

26/09/2009 18:04:00
Quote Anchor link
Met een lijst maken bedoel ik dus, hoe kom ik aan die webadressen ;)

En hoe kan ik die in de praktijk doen dan?
 
Jens erd

Jens erd

26/09/2009 18:57:00
Quote Anchor link
volgens mij volgt een crawler hyperlinks op site's en creert zo een enorme database aan website's.. echter zal hij wel zoekmachine's moeten negeren, dubbele niet op moeten slaan, meta tags uitlezen enzovoort..
 
Steen

steen

26/09/2009 19:15:00
Quote Anchor link
Hoeveel Nederlandse site's zijn er nou eigenlijk ? Een paar miljoen? Dat kan een database wel aan. Het gaat alleen om de TLD en de domeinnaam zelf, dus niet om de content.
 
Remie

remie

26/09/2009 20:04:00
Quote Anchor link
@steen
Deze lijst wordt niet vrijgegeven door SIDN dus je zult de lijst zelf moeten maken.
 
Steen

steen

26/09/2009 20:31:00
Quote Anchor link
En nu komt het: hoe maak ik zo'n lijst automatisch, en het makkelijkst. Welke crawler en hoe in te stellen bijv.
 
Mr D

Mr D

26/09/2009 21:04:00
Quote Anchor link
Met Zend_Search_Lucene is het relatief eenvoudig om een goede crawler te maken
 



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.