Spider/crawler

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Network Engineer (f/m/d) in Heidelberg

Network Engineer (f/m/d) The IT Services team operates and supports the IT infrastructure and services at EMBL headquarters in Heidelberg and at the laboratory’s sites in Barcelona and Rome. As part of IT Services, the Network team is responsible for managing and developing the network infrastructure in our data centres, on campus, and to our external network providers. As a leading scientific institution with highly data-intensive research, extensive data flows at and between the laboratory’s six sites and to the Internet, EMBL is connected to national and international scientific networks using state-of-the-art technologies from vendors including Cisco, Extreme Networks and

Bekijk vacature »

SAP Integratie Ontwikkelaar

Ben jij ambitieus in de verdere ontwikkeling van SAP binnen HANOS, en heb je kennis van SAP PI, CPI (SAP integration suite) en of andere middleware tooling? Dan ben jij mogelijk onze nieuwe SAP Integratie (middleware) Ontwikkelaar! Lees snel verder en solliciteer! Wat ga je doen? Als SAP Financieel Consultant ben je, als deel van een gedreven team van interne SAP consultants, de schakel tussen de gebruikersorganisatie en ICT. Je draagt proactief bij aan een optimale aansluiting van de SAP-functionaliteit (een applicatielandschap met o.a. Suite on HANA, Fiori, Hybris, C4C en BO), op de bedrijfsprocessen. Verder ondersteun je de HANOS

Bekijk vacature »

Oracle APEX developer

Wat je gaat doen: Als Oracle APEX ontwikkelaar bij DPA werk je samen met collega’s aan de meest interessante opdrachten. Je zult je ervaring met SQL, PL/SQL, JavaScript, HTML en CSS inzetten om wensen van opdrachtgevers te vertalen naar technische oplossingen. Je werk is heel afwisselend, omdat DPA zich niet beperkt tot een specifieke branche. Zo ben je de ene keer bezig binnen de zorgsector, de andere keer is dit bij de overheid. Wat we vragen: Klinkt goed? Voor deze functie breng je het volgende mee: Je hebt een hbo- of universitaire opleiding afgerond Je hebt 2 tot 5 jaar

Bekijk vacature »

PHP Developer

Functie omschrijving Als PHP / Laravel developer zal je in een klein team terecht komen. Wij zijn op zoek naar een echte specialist, iemand die de balans weet te vinden tussen techniek en perfectie. In de aankomende jaren wilt dit bedrijf flink groeien en daarom zijn ze op zoek naar jou! Wat ga je doen? Je draagt bij aan het ontwikkelen en onderhouden van bestaande webapplicaties die boordevol functionaliteit zitten. Deze applicaties worden gebruikt door de organisatie zelf en ook door de klanten. Inmiddels wordt er gewerkt met Laravel 8 en zijn er diverse koppelingen naar externe leveranciers. Verder zal

Bekijk vacature »

Junior Developer Low-code

Dit ga je doen Low-code ontwikkeling van software voor landelijk bekende organisaties; Samenwerken in een team van 10 collega's; Opleveren van mooie eindproducten, middels de Agile methodiek; Direct contact met de eindklant over de gewenste oplossingen. Hier ga je werken Als startende IT-professional kom je te werken in de regio van Lelystad bij een organisatie die met toonaangevende klanten uit heel Nederland samen werkt. De producten en diensten van de organisatie bereiken miljoenen Nederlanders. Hierbij komt een grote hoeveelheid informatie kijken en deze moet discreet en veilig verwerkt worden. De processen die hierbij horen worden door het IT team vormgegeven.

Bekijk vacature »

Laravel developer

Zie jij mogelijkheden om onze tooling technisch te verbeteren en uit te bouwen? Over Jobmatix Jobmatix is een innovatieve en internationale speler op het gebied van jobmarketing. Onze jobmarketing automation tool helpt organisaties bij het aantrekken van nieuw talent door vacatures digitaal, geautomatiseerd en op een efficiënte manier te adverteren en onder de aandacht te brengen bij de doelgroep op 25+ jobboards. Volledig performance-based, waarbij organisaties betalen op basis van cost per click of cost per applicant. Maandelijks wordt onze jobmarketing automation tool al gebruikt door vele directe werkgevers, intermediairs en mediabureaus, waaronder Picnic, Rijkswaterstaat, AdverOnline, Schiphol, DPA, Teleperformance en

Bekijk vacature »

Senior SQR Java Developer

Vacature details Vakgebied: Software/IT Opleiding: Senior Werklocatie: Eindhoven Vacature ID: 13333 Introductie Are you passionate about contributing to the world's most advanced machines. Do you thrive in a challenging environment working with highly motivated and skilled teams? If so, we have the perfect opportunity for you! We are seeking a Senior Software Design Engineer for Sequence Tooling to play a critical role in creating and maintaining mission-critical software applications. In this role, you will focus on achieving maintainable software architecture that is transparent and easy to extend while maintaining a strong focus on software quality. You will work closely with

Bekijk vacature »

3D BIM Add-on Developer

As a 3D BIM add- on developer at KUBUS, you will develop add-ons (called BCF- Managers) to the leading building information modeling (BIM) programs Revit, Navisworks, Archicad, AutoCAD and Tekla Structures. BCF Managers enable data transfer between BIM software and BIMcollab. You will work on both the front- and the back-end. As a software company, KUBUS is in a unique position. We build our own products that are used by tens of thousands of users worldwide. Our company is just the right size: big enough to make a real impact in the market, but small enough that as an individual

Bekijk vacature »

Remote - Front-end Angular developer

Functie The IT team currently consists of the IT Manager, 2 back-end developers, 1 full-stack developer, 1 designer, and a DevOps engineer. They are currently looking for an experienced Front-end developer who will work autonomously and in a disciplined manner, being the only developer working on their Front-end applications at the start. They do have the ambition to find a second developer soon, who you will then be able to supervise. You will be working on the further development of their existing UI in Angular. But also developing a mobile app. They place great value on User Experience and opt

Bekijk vacature »

Freelance JAVA / C# Developer

Functieomschrijving Voor een opdrachtgever in omgeving Zoetermeer zijn wij op zoek naar ervaren JAVA of C# Developers die graag op projectbasis willen werken. Je komt terecht bij een informele developers club die mooie projecten uitvoeren voor grote klanten. Ben je een ervaren freelancer of werk je in loondienst en ben je toe aan een nieuwe uitdaging? Lees dan snel verder want wie weet is dit een leuke vacature voor jou! Het fijne van deze werkgever is dat je zelf mag beslissen hoe je te werk wilt gaan. Wil je als freelancer werken dan is dat OK. Wil je de zekerheid

Bekijk vacature »

Back-end Developer

Functieomschrijving Heb jij kort geleden jouw HBO ICT diploma in ontvangst mogen nemen? Of ben je toe aan een nieuwe stap? Voor een softwarebedrijf in regio Oosterhout zijn wij op zoek naar een back-end developer met kennis of ervaring met C# en SQL. Je draagt bij aan de implementatie van aanpassingen, verbeteringen en aanvullingen in de C# based applicaties; Je test de software en ontwikkelt deze door; Je brengt de aanpassingssuggesties van klanten in kaart, om ze vervolgens te analyseren en daarna te concluderen of de aanpassing een verbetering is; Je houdt je bezig met het ontwikkelen van nieuwe functionaliteiten;

Bekijk vacature »

Software programmeur

Functieomschrijving Voor een erkende werkgever in de regio van Goes zijn wij op zoek naar een enthousiaste software programmeur met PHP/Symfony ervaring. Een gedreven persoon die het development team komt versterken met het aanpakken van complexe projecten. Ben jij op zoek naar een baan met veel uitdaging binnen een snelgroeiend e-commerce bedrijf, waar je de tijd en ruimte krijgt voor zowel professionele als persoonlijke groei? Lees dan snel verder! Dit ga je doen: Beheer en ontwikkeling van de serviceportal in Symfony en de webshops in de tweede versie van Magento; Testen en door ontwikkelen van software; Ontwikkelen van nieuwe functionaliteiten;

Bekijk vacature »

Software Programmeur PHP

Functie Wij zijn op zoek naar een PHP programmeur voor een leuke opdrachtgever in omgeving Alblasserdam. Heb jij altijd al willen werken bij een bedrijf dat veilige netwerkverbindingen levert door middel van veilige oplossingen? Lees dan snel verder. Hoe kan jouw dag er straks uitzien? Je gaat software en webapplicaties ontwikkelen met behulp van de talen C / C++ / PHP. Je gaat technische klussen uitvoeren op locatie bij klanten. Je onderhoudt contact met de projectleider om er zeker van te zijn dat een projecten goed verlopen. Je gaat klanten ondersteunen op het gebied van geleverde software en webapplicaties. Tevens

Bekijk vacature »

Back end Node.js developer

Functie Het ontwikkelteam bestaat momenteel uit 5 (back-end) Developers, 2 systeembeheerders, 1 DevOps engineer, 1 Tech Lead en 2 Scrum Masters. Samen wordt er doorontwikkeld aan twee SaaS-platformen die in een hoog tempo doorontwikkeld moeten worden. Omdat innovatie een belangrijk speerpunt binnen de organisatie is, wordt er ook continu naar snellere en slimmere oplossingen te bedenken en realiseren. Als Back-end Developer hou jij je dagelijks bezig met vraagstukken zoals: API-development, high volume datastromen, het ontwikkelen van Bots aan de hand van A.I. Daarnaast denk en werk jij mee aan de onlineapplicaties voor klanten. Er wordt zelfstandig en in teamverband gewerkt

Bekijk vacature »

Medior PHP Developer

Bij Getnoticed doen wij wat we leuk vinden, websites bouwen en online marketing. Voor veel van onze klanten doen we dan ook allebei. Wel zo fijn om campagnes te draaien voor conversiegerichte website die in eigen beheer zijn. In onze vestiging in Nederweert zitten onze development afdelingen en worden de websites gebouwd. Op dit moment zijn we op zoek naar jou: dé PHP/Back-end developer die net als wij, het hoofd boven het maaiveld durft uit te steken! In het kort Even een paar punten die omschrijven wat deze toffe baan inhoudt: Het bedenken van nieuwe functionaliteiten Het verbeteren van het

Bekijk vacature »
Peter  paul

peter paul

18/04/2011 12:06:36
Quote Anchor link
Ik ben op zoek naar een tutorial /script van een zeer eenvoudige spider. Ik zou graag willen dat ik een URL opgeef en dat hij deze door loopt opzoek naar URL.

Ik heb uiteraard al rond gekeken en er is veel te vinden, maar deze scripts zijn zo uitgebreid dat ik als beginner er niet veel mee kan.

Ik heb de laatste paar dagen vele pagina’s gelezen over OOP. Nou wil ik dit uiteraard zelf proberen bij mijn spider, maar ik heb geen flauw idee welke indeling ik in mijn class moet maken. Kan iemand mij een zetje in de goede richting geven

BVD

PP
 
PHP hulp

PHP hulp

25/04/2024 16:43:56
 
Arjan -

Arjan -

18/04/2011 12:07:54
Quote Anchor link
Een spider systeem ontwikkelen is niet bepaald kinderspel. Als je, ondanks jouw eerdere zoektocht, nog open staat voor een spider script dan raad ik je aan eens te kijken naar: http://phpcrawl.cuab.de/

Even de documentatie bekijken en je snapt het principe (zie voor een voorbeeld: http://phpcrawl.cuab.de/example.html).
Gewijzigd op 18/04/2011 12:09:09 door Arjan -
 
Peter  paul

peter paul

19/04/2011 11:59:00
Quote Anchor link
ik heb het bekeken, en ik ben tot het volgende gekomen, het is een zeer simpele opzet maar hey het is een begin.

Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?php

$bron
= file_get_contents('http://www.google.com/');

$pattern = "/<[ ]{0,}a[ \n\r][^<>]{0,}(?<= |\n|\r)(?:href)[ \n\r]{0,}=[ \n\r]{0,}[\"|']{0,1}([^\"'>< ]{0,})[^<>]{0,}>((?:(?!<[ \n\r]*\/a[ \n\r]*>).)*)<[ \n\r]*\/a[ \n\r]*>/ is";

    preg_match_all($pattern, $bron, $matches);    
    

foreach ($matches[1] as $key => $url){
    echo "Url:&nbsp;&nbsp;" . $url . "</br>Titel:&nbsp;&nbsp;" . $matches[2][$key]. "</br></br>";
}


?>


Ik zou graag wat dingen veranderen waar ik niet uit kom:

Ik wil dat wanneer hij een match gevonden heeft hij die match meteen echo-ed is dit mogelijk zo ja, hoe?

Ik heb ook wat andere sites geprobeerd http://www.youtube.com http://nl.yahoo.com/ maar als ik mijn pagina dan open krijg ik de volgende error "Apache HTTP Server werkt niet meer" iemand een idee wat ik hier aan kan doen?
 
Jelmer -

Jelmer -

19/04/2011 12:11:27
Quote Anchor link
preg_match_all geeft je alle matches in één keer terug, maar dat zou geen probleem moeten zijn.

Hier werkt je script trouwens wel gewoon goed. Zet eens de error-reporting aan? Misschien krijg je dan een bruikbare foutmelding te zien:
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
<?php
error_reporting(E_ALL);
ini_set('display_errors', true);
?>


En anders maar met een hard hoofd debuggen: Werkt alleen dit wel, of krijg je "bool(false)" oid te zien?
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
<?php
var_dump(file_get_contents('http://www.google.com/'));
?>
Gewijzigd op 19/04/2011 12:12:51 door Jelmer -
 
Peter  paul

peter paul

19/04/2011 12:20:00
Quote Anchor link
1. Zou je me ook kunnen vertellen hoe ik het meteen zou kunnen echo-en als hij het vindt, of waarna ik zou kunnen googlen.

2. Mijn code werkt op veel paginas gewoon goed maar zo als ik al zei pagina's als http://www.youtube.com en http://nl.yahoo.com/ daar bij krijg ik die error. wanneer ik het met jou var_dump code probeer doet hij precies wat die moet doen. Ik kan de fout niet echt vinden.
Gewijzigd op 19/04/2011 12:31:59 door peter paul
 
Jelmer -

Jelmer -

19/04/2011 12:39:51
Quote Anchor link
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<?php

$bron
= file_get_contents('http://www.youtube.com');

$pattern = "/<[ ]{0,}a[ \n\r][^<>]{0,}(?<= |\n|\r)(?:href)[ \n\r]{0,}=[ \n\r]{0,}[\"|']{0,1}([^\"'>< ]{0,})[^<>]{0,}>((?:(?!<[ \n\r]*\/a[ \n\r]*>).)*)<[ \n\r]*\/a[ \n\r]*>/ is";

$offset = 0;
while(preg_match($pattern, $bron, $matches, PREG_OFFSET_CAPTURE, $offset))
{

    $offset = $matches[0][1] + 1;
    
    echo 'URL: ' . $matches[1][0] . "<br>\n";
    echo 'Titel:' . htmlentities($matches[2][0]) . "<br><br>\n";
}

    
?>


Zo print hij ze zodra hij een match vindt, maar dat heeft geen meerwaarde boven preg_match_all. Jou probleem zit hem in file_get_contents. Als je creatief bent kan je met kan je zelf het uitlezen van het antwoord van de webserver regelen, zie voor een simpel voorbeeld daarvan het voorbeeld bij fsockopen.

Het is wel aanzienlijk complexer. Zo moet je zelf gaan bijhouden wanneer je de body van het antwoord krijgt (headers overslaan, of parsen wanneer je bijvoorbeeld een redirect wilt kunnen volgen, dan zit er een Location: xxx in het header-gebeuren van het antwoord etc.) Je moet ook gaan bijhouden hoever je al was met lezen en matchen. Immers, fgets zou je eerst ' aasadas <a href="asdmfvl">asd' kunnen geven, en dan 'asdsad</a> sdfunkf,jrev', en pas als je die twee stukken aan elkaar plakt matcht je reguliere expressie. Met het voorbeeld hierboven dan je dan weer uitrekenen waar hij matchte (via $offset) en dat deel van de buffer weggooien.

edit: www.youtube.com en nl.youtube.com doen het bij mij allebei, alleen de titel die je krijgt bevat veel HTML code. Misschien stikt je browser in al die html? Helpt htmlentities zoals in m'n voorbeeld hierboven misschien?
Gewijzigd op 19/04/2011 12:42:41 door Jelmer -
 
Write Down

Write Down

19/04/2011 14:16:34
Quote Anchor link
Kijk ook eens naar cURL.
 
Pim -

Pim -

19/04/2011 17:02:05
Quote Anchor link
En ander probleem is het herkennen van relatieve URLs.
Denk daarbij ook aan een mogelijke base-tag.
 
Bastian stolk

bastian stolk

02/06/2011 20:15:52
Quote Anchor link
ik vroeg me af of je ook tekst kan crawlen
 



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.