Laat ik ook maar weer eens met en brainstorm vraag komen.
Ik brainstorm naar een efficiente manier om naar bestanden te crawlen...
Nou ben ik benieuwd of iemand efficiente ingeveingen heeft. het scripten doe ik zelf...ik ben alleen benieuwd of ik misschien een paar van de vele wegen naar rome over het hoofd zie.
mijn aanpak nu is alsvolgt:
Ik wil domein per domein gaan crawlen en alle links volgen...source ophalen en zoeken naar <a href, <object data, <embed, e.d. als ik een verwijzing naar een nieuw domein vind bewaar ik deze en volg deze wanneer ik klaar ben op de voorgaande. Dit om het script minder heavy te maken en een timeout te voorkomen.

Iemand misschien een eye opener?

Reageren