Krijg de tweede URL van een string in PHP

Door Jeroen van Rensen op 07-05-2020 16:53

1.898 views

Hallo allemaal,

Ik heb een rare string met karakters, waaronder URLs. Ik wil graag met PHP alleen de tweede URL eruit halen. Hoe kan ik dit doen?

Dit is mijn string:

https://miro.medium.com/max/552/1*lndfM7v39c1tu_a8r0n16A.png 276w, https://miro.medium.com/max/1104/1*lndfM7v39c1tu_a8r0n16A.png 552w, https://miro.medium.com/max/1280/1*lndfM7v39c1tu_a8r0n16A.png 640w, https://miro.medium.com/max/1400/1*lndfM7v39c1tu_a8r0n16A.png 700w

Bedankt!
Jeroen

- Ariën -

07-05-2020 17:07

<?php
$string="https://miro.medium.com/max/552/1*lndfM7v39c1tu_a8r0n16A.png 276w, https://miro.medium.com/max/1104/1*lndfM7v39c1tu_a8r0n16A.png 552w, https://miro.medium.com/max/1280/1*lndfM7v39c1tu_a8r0n16A.png 640w, https://miro.medium.com/max/1400/1*lndfM7v39c1tu_a8r0n16A.png 700w";
$split = explode(", ",$string);
print_r($split);
?>

Ivo P

07-05-2020 17:18

Weet je nog meer over de string?

Weet je ook nog iets over de url? Begint die altijd met http(s) ?


<?php

$string = ' https://miro.medium.com/max/552/1*lndfM7v39c1tu_a8r0n16A.png 276w, https://miro.medium.com/max/1104/1*lndfM7v39c1tu_a8r0n16A.png 552w, https://miro.medium.com/max/1280/1*lndfM7v39c1tu_a8r0n16A.png 640w, https://miro.medium.com/max/1400/1*lndfM7v39c1tu_a8r0n16A.png 700w ';

$b = preg_match_all('# (https?\:[^ ]+)#', $string, $aM);

var_dump($aM);
?>

Je antwoord zit dan dus in $aM[0][1]

[size=xsmall]Toevoeging op 07/05/2020 17:19:21:[/size]


array(2) {
  [0]=>
  array(4) {
    [0]=>
    string(61) " https://miro.medium.com/max/552/1*lndfM7v39c1tu_a8r0n16A.png"
    [1]=>
    string(62) " https://miro.medium.com/max/1104/1*lndfM7v39c1tu_a8r0n16A.png"
    [2]=>
    string(62) " https://miro.medium.com/max/1280/1*lndfM7v39c1tu_a8r0n16A.png"
    [3]=>
    string(62) " https://miro.medium.com/max/1400/1*lndfM7v39c1tu_a8r0n16A.png"
  }
  [1]=>
  array(4) {
    [0]=>
    string(60) "https://miro.medium.com/max/552/1*lndfM7v39c1tu_a8r0n16A.png"
    [1]=>
    string(61) "https://miro.medium.com/max/1104/1*lndfM7v39c1tu_a8r0n16A.png"
    [2]=>
    string(61) "https://miro.medium.com/max/1280/1*lndfM7v39c1tu_a8r0n16A.png"
    [3]=>
    string(61) "https://miro.medium.com/max/1400/1*lndfM7v39c1tu_a8r0n16A.png"
  }
}

R Rob Doemaarwat

07-05-2020 18:45

En omdat Ariën alle topics die over scrapen gaan meteen achter een slotje gooit wil ik toch deze even hier droppen (volgens mij zijn we hier namelijk gewoon met de volgende stap bezig van het gesloten topic): https://blog.iusmentis.com/2016/11/04/is-scrapen-website-computervredebreuk/

Zoals ik het lees: Het scrapen van een site an sich is (meestal) niet verboden (tenzij het expliciet in de voorwaarden staat), het gaat er meer om wat je later met die data gaat doen.

Uit persoonlijke ervaring zit er ook wel heel veel verschil tussen scrapers:
- Je hebt ze die elke 5 seconden een pagina opvragen (dezelfde pagina - om te kijken of er al "iets nieuws" is, om dan de eerste te zijn die reageert), de hele dag door. Die krijgen meteen een perma-ban aan de broek. Dito voor die gasten die even een "kopie" van je hele site komen maken (vanaf een heel cluster aan IP-adressen, voor vele uren).
- Hobbyisten die gewoon wat data op willen vragen voor eigen gebruik, en daarvoor een paar keer per dag een bepaalde pagina opvragen. Naast het feit dat dit amper te detecteren is vind ik dat verder ook prima (als ze de hele dag op F5 gaan zitten rammen heb je er meer werk aan, omdat er dan veel meer dan enkel HTML naar de overkant moet).

Thomas van den Heuvel

07-05-2020 19:51

Wat @Rob zegt. De pagina in het andere topic is gewoon rechtstreeks toegankelijk, het is niet alsof dit content is waar je voor betaalt die je vervolgens probeert te rippen of wat dan ook.

Scrapen is eigenlijk wel het laatste redmiddel waar je naar zou moeten grijpen. Je zou ook eenmalig de content kunnen ophalen en vervolgens met andere middelen (HEAD? E-Tag?) kunnen checken of content (inhoudelijk) is veranderd.

Een andere reden dat er gescraped wordt is het ontbreken van een fatsoenlijke (desnoods betaalde) API/webservice via welke je op een fatsoenlijke wijze informatie kunt opvragen.

Jeroen van Rensen

08-05-2020 09:57

Hallo allemaal,

Ik probeer inderdaad een Web Scraper te maken voor Medium. Ik vind het een leuke uitdaging om artikelen en teksten van een andere website zo goed mogelijk over te nemen.

Uiteraard is dit alleen voor eigen gebruik.

Ariën, bedankt voor je antwoord. Ik ben nu een stap verder.

Jeroen van Rensen

J Jan te Pas

08-05-2020 15:48

En dit is ook een methode om gegevens die op een speciale url gezet worden in te lezen. Bijvoorbeeld weersgegevens. Via JQUERY in programma te gebruiken,

Reageren

Inloggen om te reageren