Spider/crawler

Overzicht Reageren

Sponsored by: Vacatures door Monsterboard

Junior .NET developer

Functie Als junior .NET ontwikkelaar start jij in een ontwikkelteam met 7 .NET developers. In ons team werken er drie senior .NET developer, twee medior .NET developers en twee junior .NET developers. Er is dan ook genoeg senioriteit in ons team om jou te kunnen bieden wat jij nodig hebt! Wij werken in scrum en hebben drie wekelijkste sprints. Daarnaast doen wij minimaal vier keer per jaar een release. Ons platform is ontzettend complex en groot. Het is dan ook in het begin belangrijk dat jij de processen gaat begrijpen. Jij krijgt dan ook een cursus om beter te begrijpen

Bekijk vacature »

Java Developer

Functie Wat ga je doen als Java developer? Jij komt terecht binnen een informeel team waarin je verantwoordelijk bent voor de backend systemen voor grote klanten als Ziggo en KPN. Als Medior Java developer werk je in teamverband en soms individueel. Gedurende de werkweek zal je veelvuldig sparren met je collega’s voor een goede implementatie van de software. Ben jij een echte Java developer? Ben je geïnteresseerd in de nieuwste technieken en de laatste ontwikkelingen? Dan ben je hier aan het juiste adres! Eisen Wat wordt er van jou verwacht? • Minimaal HBO/WO denk- en werkniveau; • Analytisch sterk, open

Bekijk vacature »

Lead developer (PHP, Symfony, DDD)

Functie Als Lead developer zorg je ervoor dat het team (bestaande uit zowel junior als ervaren developers) in staat is om de kwaliteit van de software (en code) verder te verhogen. In samenwerking met het team, de product owner en de andere lead developers zet je technische lijnen uit en bepaal je de prioriteiten per sprint. Lijkt het jou interessant om complexe problemen op te lossen en bijvoorbeeld een nieuwe applicatiestructuur in Symfony op te zetten? Dan komen wij graag met je in contact. Eisen • HBO werk- en denkniveau (ze kijken niet naar papieren, maar naar denkniveau, motivatie en

Bekijk vacature »

Software Developer

Dit ga je doen Je bent verantwoordelijk voor de warehouse applicatie die een integratie heeft met de PLC laag; Je ontwikkelt in C#/.Net; Je werkt mee aan de migratie naar .NET 6; Je bent verantwoordelijk voor het ontwikkelen van interfaces en het visualiseren van componenten; Je denkt mee over het design voor business oplossingen; Je bent verantwoordelijk voor het testen van de gebouwde oplossing. Hier ga je werken Voor een internationale organisatie in de transport zijn wij momenteel op zoek naar een Software Developer. Zij zijn wereldwijd de grootste speler en lopen voorop met het automatiseren van alle processen van

Bekijk vacature »

Front-end Developer

Do you want to work with the latest technologies on the development of new systems and applications? Create elegant interfaces using VueJS for thousands of users? Get moving and strengthen Nederlandse Loterij as a Front-end Developer. Thanks to your efforts, our services are always presented in style. As a Front-end Developer you are responsible for website development and improving customer experience based on data analyze. In this way, you directly contribute to a happy, healthy and sporty Netherlands. As a Front-end Developer you score by: Writing elegant, testable components without side-effects to provide functionality to the users Website development, adding

Bekijk vacature »

Full-stack Developer

As a Full-stack developer at KUBUS, you will develop the (web)applications and services of BIMcollab. You will work on both the front- and back-end. As a software company, KUBUS is in a unique position. We build our own products that are used by tens of thousands of users worldwide. Our company is just the right size: big enough to make a real impact in the market, but small enough that as an individual developer you can have an impact and really make a difference. Our development team consists of over 40 developers, testers, scrum masters and product owners, divided over

Bekijk vacature »

Junior / Medior C# .NET ontwikkelaar in Brabants t

Bedrijfsomschrijving Ben jij een gepassioneerde C# .NET ontwikkelaar met een voorliefde voor hardware? Dan is dit de perfecte kans voor jou! Bij ons bedrijf krijg je de kans om deel uit te maken van een team van sociale en enthousiaste techneuten die er elke dag naar streven om onze eigen ontwikkelde software nog beter te maken. Het team van ongeveer 10 team medewerkers maakt zich hard om de interne processen gestroomlijnd te laten verlopen. Functieomschrijving Als lid van ons hechte en behulpzame team word je betrokken bij diverse projecten. Daarbij krijg je te maken met data-analyses, content en de logistieke

Bekijk vacature »

Fullstack developer

Zie jij mogelijkheden om onze tooling technisch te verbeteren en uit te bouwen? Over Jobmatix Jobmatix is een innovatieve en internationale speler op het gebied van jobmarketing. Onze jobmarketing automation tool helpt organisaties bij het aantrekken van nieuw talent door vacatures digitaal, geautomatiseerd en op een efficiënte manier te adverteren en onder de aandacht te brengen bij de doelgroep op 25+ jobboards. Volledig performance-based, waarbij organisaties betalen op basis van cost per click of cost per applicant. Maandelijks wordt onze jobmarketing automation tool al gebruikt door vele directe werkgevers, intermediairs en mediabureaus, waaronder Picnic, Rijkswaterstaat, AdverOnline, Schiphol, DPA, Teleperformance en

Bekijk vacature »

Cloud Engineer

Ben jij een ervaren Cloud Engineer die complexe omgevingen kan overzien en wil je graag in vaste dienst werken bij een professioneel en kleinschalig bedrijf waar je een belangrijke rol kan spelen? Wij, IntelliMagic in Leiden, ontwikkelen specialistische IT monitoring software die we als SaaS oplossing verkopen aan grote bedrijven in Europa en de VS. We zijn een Nederlands bedrijf met een goede sfeer en met grote waardering voor de persoonlijke inbreng en kwaliteiten van onze medewerkers. Wij zoeken een ervaren Cloud Engineer met academisch denkniveau die verantwoordelijk wordt voor het beheer van de cloud infrastructuur voor onze Europese klanten.

Bekijk vacature »

.NET developer

Functie Als .NET ontwikkelaar ga jij aan de slag bij een van onze klanten actief in de High Tech Industrie. Onze klanten zijn voornamelijk gelokaliseerd in de omgeving van Eindhoven. Wij zijn erg selectief als het gaat om de projecten die wij accepteren en richten ons dan ook alleen op innovatieve en complexe projecten. Omdat onze klanten voornamelijk gespecialiseerd zijn in de machinebouw, werk jij ook vaak dicht tegen de machines aan. Ons team bestaat momenteel uit Embedded engineers, IOT developers en Cloud engineers. Wij werken voornamelijk aan Microsoft projecten waar er gebruik wordt gemaakt van WPF, UWP, .NET Core

Bekijk vacature »

Trainee pega developer

Wil jij een mooie stap maken in jouw carrière? Mooi! Bij De Mandemakers Groep haal je binnen 6 maanden je CSA- en CSSA-certificaten, waarna jij aan de slag kan als Pega-developer in ons IT-team. Achter de schermen zorg jij ervoor dat collega’s efficiënt werken en klanten iedere dag beter geholpen worden. Wil jij daaraan bijdragen? En jouw ICT-skills ontwikkelen? Lees dan snel verder en solliciteer vandaag nog als trainee Pega-developer. Wat ga je doen? Als trainee Pega developer leiden wij je op tot gecertificeerd software developer voor het low-code platform PegaSystems. In de training ben je verantwoordelijk voor een te

Bekijk vacature »

Ervaren PHP Developer

Functieomschrijving PHP Developer met brede ervaring gezocht! Ben jij een Full Stack PHP Developer met brede ervaring die toe is aan een volgende stap? Lees dan snel verder! Voor onze eindklant in de regio Nunspeet zijn wij op zoek naar een ervaren PHP Developer die het IT Team van deze organisatie gaat versterken. Wij zoeken een enthousiaste en breed georiënteerde IT-er die er voor gaat zorgen dat deze innovatieve organisatie de volgende stap gaat maken. Om deze functie goed uit te kunnen voeren moet je communicatief goed zijn en in staat zijn om zelfstandig problemen op te lossen. Daarnaast bestaat

Bekijk vacature »

Senior .NET Developer I goed salaris en deels thui

Bedrijfsomschrijving Mijn opdrachtgever is al ruim 20 jaar een gevestigde naam in de wereld van software ontwikkeling, met drie kantoren in de Randstad, waaronder Alphen aan den Rijn. Zij richten zich op het bouwen van IT-oplossingen die ervoor zorgen dat de productiviteit van klanten te allen tijden optimaal is. Hiervoor neemt jouw nieuwe werkgever het volledige ontwikkelproces tot haar rekening; van het eerste gesprek om de klantwensen in kaart te brengen, tot aan het uiteindelijke onderhoud van de opgeleverde oplossing. In totaal werken er inmiddels bijna 200 gemotiveerde IT-ers binnen deze organisatie. De gemiddelde leeftijd ligt rond de 35. Het

Bekijk vacature »

Starter/junior Magento developer gezocht!

Functie Je komt te werken in een zelfsturend team waarin vertrouwen voorop staat en inbreng en ideeën worden gewaardeerd. Ook staat innovatie centraal. Ze bieden jou de mogelijkheid om jezelf door te ontwikkelen. Denk hierbij aan cursussen en een persoonlijk ontwikkelplan. Je komt terecht in het team van momenteel 4 (ervaren) collega’s en zal meewerken aan de doorontwikkeling en nieuwbouw van de Magento platformen van meerdere opdrachtgevers volgens Agile/Scrum. Denk hierbij aan nieuwe functionaliteiten, UX en koppelingen met verschillende back-end systemen. Als starter/junior developer zul je direct begeleid worden door een senior uit het team. Het is van belang dat

Bekijk vacature »

Node.js developer looking for a challenging consul

Functie Under the guidance of 3 account managers, one of whom will be your point of contact within your expertise, you will start working for various clients. He or she will help you find a suitable and challenging assignment. Naturally, they will take your situation, experience and (technical) ambitions into account. The assignments last one to two years on average. This allows you to really commit to a project and make an impact as a consultant. Besides the assignment, you will regularly meet your colleagues from the IT department to share knowledge or discuss new trends, for example. Master classes

Bekijk vacature »
Peter  paul

peter paul

18/04/2011 12:06:36
Quote Anchor link
Ik ben op zoek naar een tutorial /script van een zeer eenvoudige spider. Ik zou graag willen dat ik een URL opgeef en dat hij deze door loopt opzoek naar URL.

Ik heb uiteraard al rond gekeken en er is veel te vinden, maar deze scripts zijn zo uitgebreid dat ik als beginner er niet veel mee kan.

Ik heb de laatste paar dagen vele pagina’s gelezen over OOP. Nou wil ik dit uiteraard zelf proberen bij mijn spider, maar ik heb geen flauw idee welke indeling ik in mijn class moet maken. Kan iemand mij een zetje in de goede richting geven

BVD

PP
 
PHP hulp

PHP hulp

29/04/2024 10:27:13
 
Arjan -

Arjan -

18/04/2011 12:07:54
Quote Anchor link
Een spider systeem ontwikkelen is niet bepaald kinderspel. Als je, ondanks jouw eerdere zoektocht, nog open staat voor een spider script dan raad ik je aan eens te kijken naar: http://phpcrawl.cuab.de/

Even de documentatie bekijken en je snapt het principe (zie voor een voorbeeld: http://phpcrawl.cuab.de/example.html).
Gewijzigd op 18/04/2011 12:09:09 door Arjan -
 
Peter  paul

peter paul

19/04/2011 11:59:00
Quote Anchor link
ik heb het bekeken, en ik ben tot het volgende gekomen, het is een zeer simpele opzet maar hey het is een begin.

Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
5
6
7
8
9
10
11
12
13
14
<?php

$bron
= file_get_contents('http://www.google.com/');

$pattern = "/<[ ]{0,}a[ \n\r][^<>]{0,}(?<= |\n|\r)(?:href)[ \n\r]{0,}=[ \n\r]{0,}[\"|']{0,1}([^\"'>< ]{0,})[^<>]{0,}>((?:(?!<[ \n\r]*\/a[ \n\r]*>).)*)<[ \n\r]*\/a[ \n\r]*>/ is";

    preg_match_all($pattern, $bron, $matches);    
    

foreach ($matches[1] as $key => $url){
    echo "Url:&nbsp;&nbsp;" . $url . "</br>Titel:&nbsp;&nbsp;" . $matches[2][$key]. "</br></br>";
}


?>


Ik zou graag wat dingen veranderen waar ik niet uit kom:

Ik wil dat wanneer hij een match gevonden heeft hij die match meteen echo-ed is dit mogelijk zo ja, hoe?

Ik heb ook wat andere sites geprobeerd http://www.youtube.com http://nl.yahoo.com/ maar als ik mijn pagina dan open krijg ik de volgende error "Apache HTTP Server werkt niet meer" iemand een idee wat ik hier aan kan doen?
 
Jelmer -

Jelmer -

19/04/2011 12:11:27
Quote Anchor link
preg_match_all geeft je alle matches in één keer terug, maar dat zou geen probleem moeten zijn.

Hier werkt je script trouwens wel gewoon goed. Zet eens de error-reporting aan? Misschien krijg je dan een bruikbare foutmelding te zien:
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
<?php
error_reporting(E_ALL);
ini_set('display_errors', true);
?>


En anders maar met een hard hoofd debuggen: Werkt alleen dit wel, of krijg je "bool(false)" oid te zien?
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
<?php
var_dump(file_get_contents('http://www.google.com/'));
?>
Gewijzigd op 19/04/2011 12:12:51 door Jelmer -
 
Peter  paul

peter paul

19/04/2011 12:20:00
Quote Anchor link
1. Zou je me ook kunnen vertellen hoe ik het meteen zou kunnen echo-en als hij het vindt, of waarna ik zou kunnen googlen.

2. Mijn code werkt op veel paginas gewoon goed maar zo als ik al zei pagina's als http://www.youtube.com en http://nl.yahoo.com/ daar bij krijg ik die error. wanneer ik het met jou var_dump code probeer doet hij precies wat die moet doen. Ik kan de fout niet echt vinden.
Gewijzigd op 19/04/2011 12:31:59 door peter paul
 
Jelmer -

Jelmer -

19/04/2011 12:39:51
Quote Anchor link
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<?php

$bron
= file_get_contents('http://www.youtube.com');

$pattern = "/<[ ]{0,}a[ \n\r][^<>]{0,}(?<= |\n|\r)(?:href)[ \n\r]{0,}=[ \n\r]{0,}[\"|']{0,1}([^\"'>< ]{0,})[^<>]{0,}>((?:(?!<[ \n\r]*\/a[ \n\r]*>).)*)<[ \n\r]*\/a[ \n\r]*>/ is";

$offset = 0;
while(preg_match($pattern, $bron, $matches, PREG_OFFSET_CAPTURE, $offset))
{

    $offset = $matches[0][1] + 1;
    
    echo 'URL: ' . $matches[1][0] . "<br>\n";
    echo 'Titel:' . htmlentities($matches[2][0]) . "<br><br>\n";
}

    
?>


Zo print hij ze zodra hij een match vindt, maar dat heeft geen meerwaarde boven preg_match_all. Jou probleem zit hem in file_get_contents. Als je creatief bent kan je met kan je zelf het uitlezen van het antwoord van de webserver regelen, zie voor een simpel voorbeeld daarvan het voorbeeld bij fsockopen.

Het is wel aanzienlijk complexer. Zo moet je zelf gaan bijhouden wanneer je de body van het antwoord krijgt (headers overslaan, of parsen wanneer je bijvoorbeeld een redirect wilt kunnen volgen, dan zit er een Location: xxx in het header-gebeuren van het antwoord etc.) Je moet ook gaan bijhouden hoever je al was met lezen en matchen. Immers, fgets zou je eerst ' aasadas <a href="asdmfvl">asd' kunnen geven, en dan 'asdsad</a> sdfunkf,jrev', en pas als je die twee stukken aan elkaar plakt matcht je reguliere expressie. Met het voorbeeld hierboven dan je dan weer uitrekenen waar hij matchte (via $offset) en dat deel van de buffer weggooien.

edit: www.youtube.com en nl.youtube.com doen het bij mij allebei, alleen de titel die je krijgt bevat veel HTML code. Misschien stikt je browser in al die html? Helpt htmlentities zoals in m'n voorbeeld hierboven misschien?
Gewijzigd op 19/04/2011 12:42:41 door Jelmer -
 
Write Down

Write Down

19/04/2011 14:16:34
Quote Anchor link
Kijk ook eens naar cURL.
 
Pim -

Pim -

19/04/2011 17:02:05
Quote Anchor link
En ander probleem is het herkennen van relatieve URLs.
Denk daarbij ook aan een mogelijke base-tag.
 
Bastian stolk

bastian stolk

02/06/2011 20:15:52
Quote Anchor link
ik vroeg me af of je ook tekst kan crawlen
 



Overzicht Reageren

 
 

Om de gebruiksvriendelijkheid van onze website en diensten te optimaliseren maken wij gebruik van cookies. Deze cookies gebruiken wij voor functionaliteiten, analytische gegevens en marketing doeleinden. U vindt meer informatie in onze privacy statement.