Spider/crawler

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Platform Community Manager

Als Platform Community Manager ben je een onmisbare schakel tussen de gebruikers van het Mijnwinkel platform en de organisatie. Je bent het centrale aanspreekpunt en speelt adequaat in op reacties, vragen en opmerkingen met betrekking tot het platform. Je stimuleert en ondersteunt de interactie tussen gebruikers en faciliteert daarbij de groei van hoogwaardige content. Daarnaast plaats je ook zelf content om de interactie met gebruikers aan te gaan. Omdat je bovenop het vuur zit en als geen ander weet hoe het platform functioneert, kan je input leveren over de workflows en processen en identificeer je verbeteringen die van invloed zijn

Bekijk vacature »

Back-end Developer

Cube in Twente is op zoek naar een Back-end Developer Medior / Senior Functie omschrijving Als Back-end Developer bouw je met jouw kennis de beste oplossingen voor de vragen van onze klanten en kun je goed onderbouwen waarom nu juist déze techniek het beste aansluit bij zijn wensen. Daarnaast sta je ervoor open je kennis te delen met je collega developers. Op deze manier haal jij het maximale uit de samenwerking met de klant en til jij je collega’s naar een hoger niveau. We zijn gegroeid door focus te houden op het plezier van het team en op de details

Bekijk vacature »

Dynamics CRM / Developer

Bedrijfsomschrijving Als onderdeel van een grote IT-dienstverlener is deze organisatie ontstaan en is nu gegroeid tot organisatie van bijna 30 man groot. Iedereen binnen deze organisatie houdt zich bezig met het ontwikkelen, beheren, onderhouden van bedrijfskritische applicaties. In tegenstelling tot de moederorganisatie, werken de medewerkers bij deze organisatie gemiddeld drie dagen in de week gewoon op het eigen kantoor in Utrecht. Mede hierdoor heerst er een erg informele sfeer waardoor jij je binnen no-time thuis voelt! De organisatie staat op het punt om een heel nieuw team met specialiteit Dynamics CRM op te tuigen. Nee, je hoeft zeker nog geen

Bekijk vacature »

Software Developer Geospatial Technology

Would you like to be part of an innovative, inspiring and international environment? Are you excited to work in a Geo-ICT, Asset Management, Energy, Water & Telecom industry and do you have strong programming skills? The job as Experienced GIS Software Developer offers the challenge you are looking for! Software Developer Geospatial Technology 32-40 hours per week Your Job As Experienced GIS Consultant you will work in an international team on projects at leading customers in the Netherlands. You will deal with design solutions in which emerging technologies play an important role. Along with your colleagues and customers you will

Bekijk vacature »

Java Developer

Bedrijfsomschrijving Onze relatie is een internationale organisatie gevestigd in de omgeving van Amsterdam. Ze staan zeer goed bekend in de markt door hun innovatieve dienstverlening op IT gebied en hun gepassioneerde werknemers. Voor hun inspanningen op het gebied van IT hebben ze meerdere prijzen gewonnen! Ze willen werken en zelfontwikkeling stimuleren om het beste in iedere organisatie naar boven te brengen. IT is cruciaal in deze organisatie om hun dienstverlenging te verbeteren. De organisatie streeft ernaar om een service-architectuur te creëren. Dit is waar jij als ervaren Fullstack Java Developer bij komt helpen. Je zal komen te werken in het

Bekijk vacature »

C/C++ Developer

Bedrijfsomschrijving Als Software ontwikkelaar C/C++ kom je te werken bij een toonaangevende organisatie in de mobiliteitsbranche die door het produceren van slimme producten Nederland steeds leefbaarder maakt! Ze ontwikkelen innovatieve producten die er onder andere voor zorgen dat de infrastructuur in Nederland op de snelste en meeste efficiënte manier kan worden geregeld. Als C/C++ ontwikkelaar kom je te werken op een afdeling met 40 collega's, bestaande uit Engineers, deskundigen en ontwikkelaars. Hiervoor werk je nauw samen in een team met ongeveer tien andere ontwikkelaars. Samen met het team pak je zelfstandig projecten op die doorgaans een doorlooptijd hebben van 4

Bekijk vacature »

Data analist

Waar (kilo)meters aan encyclopedieën, een linked data-omgeving en DWH samenkomen. Dat is de KB in Den Haag. En het is de plek waar jij als data analist de openbare bibliotheken inzicht geeft over het gebruik van hun diensten. Stilstaan is geen optie. We hebben veel unieke data van de openbare bibliotheken in Nederland tot onze beschikking. En met deze schat aan data ga jij als data analist onderzoek doen. Je geeft de openbare bibliotheken veel nuttige informatie over hun dienstverlening, doordat je deze data gestructureerd aanbiedt. Als KB timmeren we flink aan de weg door deze data toe te passen

Bekijk vacature »

OutSystems Developer

Bedrijfsomschrijving Deze organisatie is een toonaangevende speler in de vastgoedbranche en telt momenteel ruim 500 medewerkers. Met meer dan 150 applicaties staat er een complex applicatielandschap, bestaande uit standaard- en maatwerkapplicaties. De maatwerkapplicaties worden ontwikkeld door een inhouse development team. Het doel voor de komende periode is het verder vernieuwen en optimaliseren van het huidige applicatielandschap. Zo staat de organisatie aan de vooravond van de implementatie van een gloednieuw applicatiehuis, waar OutSystems een belangrijke rol in speelt. Binnen deze rol word je als OutSystems Developer verantwoordelijk voor de ontwikkeling van uiteenlopende applicaties met OutSystems. Om het nieuwe applicatiehuis te implementeren

Bekijk vacature »

.NET/C# ontwikkelaar

Ben jij de .Net ontwikkelaar die ons team komt versterken? Wat ga je doen? Als ervaren.Net/C# onwikkelaar zet jij jouw skillset in bij het ontwikkelen van nieuwe financiele applicaties en diensten die niet door de standaard systemen volledig worden geautomatiseerd. Je waarborgt de kwaliteit en security in ASP.Net en C#. Je komt te werken in multidisciplinaire Scrum/Agile team en samen zorgen jullie ervoor dat de transitie naar Cloud zo goed mogelijk verloopt. Wat breng je mee? Je klantgericht en enthousiast. Je loopt voorop in architecturen, tools en technieken die helemaal van deze tijd zijn. Daarnaast heb jij: • Afgeronde HBO-

Bekijk vacature »

Application Developer Tech Lead

We’re Hiring! A UPS Application Developer Tech Lead *REMOTE WORK POSSIBLE FOR THIS ROLE As a Tech Lead Developer at UPS you work on delivering functionality for highly complex IT systems. You collaborate in agile teams and participate in emerging technologies and processes like CI/CD and DevOps to ensure that we meet our objectives effectively and efficiently. Your primary role is to perform full system life cycle activities, e.g. analysis, technical requirements, design, coding, testing and the implementation of software. Working in our Europe development center in Eindhoven means working in an international team with onsite people as well as

Bekijk vacature »

Stage Web Developer

Job description You are partly responsible for the development of the Front-end and/or Back-end of Nibblr. Depending on your qualities, you will be deployed for front-end or back-end activities. We prefer to train you as a full-stack developer, as the developers in the team are. You work on custom solutions using the latest techniques. Within the product development team, you mainly work under the supervision of the Lead developer and interaction / visual designer who takes care of the creative and interaction side. You work together with other developers on new features. You also think along to improve the user

Bekijk vacature »

Medior Front-end developer

Ben jij een software engineer met passie voor front-end development? Wil jij je verder ontwikkelen in de nieuwste front-end technologieën? Zoek jij uitdagende klussen in teamverband? Wij bieden jou die uitdaging en de mogelijkheden jezelf verder te ontwikkelen. Wat ga je doen? In de financiële sector is de digitalisering in volle gang. Deze is door de Corona crisis nog eens flink opgevoerd. Steeds meer wordt digitaal gedaan, denk aan: polis informatie inzien, claims online declareren en zelfs schades opnemen door een schade expert. Bovenop dit alles moet het ook nog zoveel mogelijk automatisch door de keten kunnen. Van claim indienen

Bekijk vacature »

Banner Developer

Werken aan de zichtbaarheid van een van de snelst groeiende bedrijven van de Benelux? Wat doe je als Banner Developer bij Coolblue? Laat jij trots aan iedereen de Banners zien die je voor Coolblue hebt geschreven via HTML, CSS en Javascript? Dan wacht deze vacature op jou! Ook Banner Developer worden bij Coolblue? Lees hieronder of het bij je past. Dit vind je leuk om te doen Schrijven van HTML, CSS en Javascript waarmee je in snel tempo nieuwe modules maakt. Het bedenken van schaalbare modules die voor alle 35000 producten werken Volgen van webinars om zo jouw kennis up

Bekijk vacature »

Software Developer Geospatial Technology

Would you like to be part of an innovative, inspiring and international environment? Are you excited to work in a Geo-ICT, Asset Management, Energy, Water & Telecom industry and do you have strong programming skills? The job as Experienced GIS Software Developer offers the challenge you are looking for! Software Developer Geospatial Technology 32-40 hours per week Your Job As Experienced GIS Consultant you will work in an international team on projects at leading customers in the Netherlands. You will deal with design solutions in which emerging technologies play an important role. Along with your colleagues and customers you will

Bekijk vacature »

Junior Developer C#

Je maakt een vliegende start van je carrière bij Coolblue, door meteen mee te werken in een team. Wat doe je als Junior Developer C# bij Coolblue? Als Junior Developer ben je meteen vanaf de start onderdeel van een van de development teams. Omdat je jezelf graag nog verder wilt ontwikkelen, kijk je veel met je collega’s mee en volg je verschillende trainingen. Maar in de sprints pak je ook je eigen stories op, om meteen Coolblue iedere dag een beetje beter te kunnen maken. Ook junior developer C# worden bij Coolblue? Lees hieronder of het bij je past. Dit

Bekijk vacature »
Peter  paul

peter paul

18/04/2011 12:06:36
Quote Anchor link
Ik ben op zoek naar een tutorial /script van een zeer eenvoudige spider. Ik zou graag willen dat ik een URL opgeef en dat hij deze door loopt opzoek naar URL.

Ik heb uiteraard al rond gekeken en er is veel te vinden, maar deze scripts zijn zo uitgebreid dat ik als beginner er niet veel mee kan.

Ik heb de laatste paar dagen vele pagina’s gelezen over OOP. Nou wil ik dit uiteraard zelf proberen bij mijn spider, maar ik heb geen flauw idee welke indeling ik in mijn class moet maken. Kan iemand mij een zetje in de goede richting geven

BVD

PP
 
PHP hulp

PHP hulp

10/05/2021 19:51:31
 
Arjan -

Arjan -

18/04/2011 12:07:54
Quote Anchor link
Een spider systeem ontwikkelen is niet bepaald kinderspel. Als je, ondanks jouw eerdere zoektocht, nog open staat voor een spider script dan raad ik je aan eens te kijken naar: http://phpcrawl.cuab.de/

Even de documentatie bekijken en je snapt het principe (zie voor een voorbeeld: http://phpcrawl.cuab.de/example.html).
Gewijzigd op 18/04/2011 12:09:09 door Arjan -
 
Peter  paul

peter paul

19/04/2011 11:59:00
Quote Anchor link
ik heb het bekeken, en ik ben tot het volgende gekomen, het is een zeer simpele opzet maar hey het is een begin.

Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?php

$bron
= file_get_contents('http://www.google.com/');

$pattern = "/<[ ]{0,}a[ \n\r][^<>]{0,}(?<= |\n|\r)(?:href)[ \n\r]{0,}=[ \n\r]{0,}[\"|']{0,1}([^\"'>< ]{0,})[^<>]{0,}>((?:(?!<[ \n\r]*\/a[ \n\r]*>).)*)<[ \n\r]*\/a[ \n\r]*>/ is";

    preg_match_all($pattern, $bron, $matches);    
    

foreach ($matches[1] as $key => $url){
    echo "Url:&nbsp;&nbsp;" . $url . "</br>Titel:&nbsp;&nbsp;" . $matches[2][$key]. "</br></br>";
}


?>


Ik zou graag wat dingen veranderen waar ik niet uit kom:

Ik wil dat wanneer hij een match gevonden heeft hij die match meteen echo-ed is dit mogelijk zo ja, hoe?

Ik heb ook wat andere sites geprobeerd http://www.youtube.com http://nl.yahoo.com/ maar als ik mijn pagina dan open krijg ik de volgende error "Apache HTTP Server werkt niet meer" iemand een idee wat ik hier aan kan doen?
 
Jelmer -

Jelmer -

19/04/2011 12:11:27
Quote Anchor link
preg_match_all geeft je alle matches in één keer terug, maar dat zou geen probleem moeten zijn.

Hier werkt je script trouwens wel gewoon goed. Zet eens de error-reporting aan? Misschien krijg je dan een bruikbare foutmelding te zien:
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
<?php
error_reporting(E_ALL);
ini_set('display_errors', true);
?>


En anders maar met een hard hoofd debuggen: Werkt alleen dit wel, of krijg je "bool(false)" oid te zien?
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
<?php
var_dump(file_get_contents('http://www.google.com/'));
?>
Gewijzigd op 19/04/2011 12:12:51 door Jelmer -
 
Peter  paul

peter paul

19/04/2011 12:20:00
Quote Anchor link
1. Zou je me ook kunnen vertellen hoe ik het meteen zou kunnen echo-en als hij het vindt, of waarna ik zou kunnen googlen.

2. Mijn code werkt op veel paginas gewoon goed maar zo als ik al zei pagina's als http://www.youtube.com en http://nl.yahoo.com/ daar bij krijg ik die error. wanneer ik het met jou var_dump code probeer doet hij precies wat die moet doen. Ik kan de fout niet echt vinden.
Gewijzigd op 19/04/2011 12:31:59 door peter paul
 
Jelmer -

Jelmer -

19/04/2011 12:39:51
Quote Anchor link
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<?php

$bron
= file_get_contents('http://www.youtube.com');

$pattern = "/<[ ]{0,}a[ \n\r][^<>]{0,}(?<= |\n|\r)(?:href)[ \n\r]{0,}=[ \n\r]{0,}[\"|']{0,1}([^\"'>< ]{0,})[^<>]{0,}>((?:(?!<[ \n\r]*\/a[ \n\r]*>).)*)<[ \n\r]*\/a[ \n\r]*>/ is";

$offset = 0;
while(preg_match($pattern, $bron, $matches, PREG_OFFSET_CAPTURE, $offset))
{

    $offset = $matches[0][1] + 1;
    
    echo 'URL: ' . $matches[1][0] . "<br>\n";
    echo 'Titel:' . htmlentities($matches[2][0]) . "<br><br>\n";
}

    
?>


Zo print hij ze zodra hij een match vindt, maar dat heeft geen meerwaarde boven preg_match_all. Jou probleem zit hem in file_get_contents. Als je creatief bent kan je met kan je zelf het uitlezen van het antwoord van de webserver regelen, zie voor een simpel voorbeeld daarvan het voorbeeld bij fsockopen.

Het is wel aanzienlijk complexer. Zo moet je zelf gaan bijhouden wanneer je de body van het antwoord krijgt (headers overslaan, of parsen wanneer je bijvoorbeeld een redirect wilt kunnen volgen, dan zit er een Location: xxx in het header-gebeuren van het antwoord etc.) Je moet ook gaan bijhouden hoever je al was met lezen en matchen. Immers, fgets zou je eerst ' aasadas <a href="asdmfvl">asd' kunnen geven, en dan 'asdsad</a> sdfunkf,jrev', en pas als je die twee stukken aan elkaar plakt matcht je reguliere expressie. Met het voorbeeld hierboven dan je dan weer uitrekenen waar hij matchte (via $offset) en dat deel van de buffer weggooien.

edit: www.youtube.com en nl.youtube.com doen het bij mij allebei, alleen de titel die je krijgt bevat veel HTML code. Misschien stikt je browser in al die html? Helpt htmlentities zoals in m'n voorbeeld hierboven misschien?
Gewijzigd op 19/04/2011 12:42:41 door Jelmer -
 
Write Down

Write Down

19/04/2011 14:16:34
Quote Anchor link
Kijk ook eens naar cURL.
 
Pim -

Pim -

19/04/2011 17:02:05
Quote Anchor link
En ander probleem is het herkennen van relatieve URLs.
Denk daarbij ook aan een mogelijke base-tag.
 
Bastian stolk

bastian stolk

02/06/2011 20:15:52
Quote Anchor link
ik vroeg me af of je ook tekst kan crawlen
 



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.