Site Crawler en Checker
Beste PHP'ers,
Ik wil graag een sitecrawler maken/gebruiken om een lijst van Nederlandse site's samen te stellen om deze daarna te controleren op het aanwezig zijn van een bepaald bestand (robots.txt). Om daarna te weergeven welke site's dit hebben. Daarnaast wil ik een ander bestand controleren.
- Hoe kan ik een lijst maken van Nederlandse site's?
- Hoe kan ik controleren of robots.txt niet doorverwijst naar bijvoorbeeld de sitemap of een andere pagina?
Ik wil graag een sitecrawler maken/gebruiken om een lijst van Nederlandse site's samen te stellen om deze daarna te controleren op het aanwezig zijn van een bepaald bestand (robots.txt). Om daarna te weergeven welke site's dit hebben. Daarnaast wil ik een ander bestand controleren.
- Hoe kan ik een lijst maken van Nederlandse site's?
- Hoe kan ik controleren of robots.txt niet doorverwijst naar bijvoorbeeld de sitemap of een andere pagina?
Ja, hoe maak je een lijst van Nederlandse sites:
De mogelijke oplossingen zijn
- Een bestand met op elke regel een sitename
- In PHP een array maken met de sitenames als inhoud.
- Een tabel in een database...
Hoe je kan checken of er niet doorverwezen wordt:
De status checken van het bestand wat je terug krijgt bij de eerste call. En geen locaties volgen die meegegeven worden. Status 200 laat zien dat het een goed bestand is. Alle andere statussen laten zien dat er iets bijzonders aan de hand is.
De mogelijke oplossingen zijn
- Een bestand met op elke regel een sitename
- In PHP een array maken met de sitenames als inhoud.
- Een tabel in een database...
Hoe je kan checken of er niet doorverwezen wordt:
De status checken van het bestand wat je terug krijgt bij de eerste call. En geen locaties volgen die meegegeven worden. Status 200 laat zien dat het een goed bestand is. Alle andere statussen laten zien dat er iets bijzonders aan de hand is.
Met een lijst maken bedoel ik dus, hoe kom ik aan die webadressen ;)
En hoe kan ik die in de praktijk doen dan?
En hoe kan ik die in de praktijk doen dan?
volgens mij volgt een crawler hyperlinks op site's en creert zo een enorme database aan website's.. echter zal hij wel zoekmachine's moeten negeren, dubbele niet op moeten slaan, meta tags uitlezen enzovoort..
Hoeveel Nederlandse site's zijn er nou eigenlijk ? Een paar miljoen? Dat kan een database wel aan. Het gaat alleen om de TLD en de domeinnaam zelf, dus niet om de content.
En nu komt het: hoe maak ik zo'n lijst automatisch, en het makkelijkst. Welke crawler en hoe in te stellen bijv.