Gegevens uit site halen
Goedemorgen,
Ik wil eigenlijk het volgende.
Voor een site wil ik gegevens uit een bepaalde site halen.
Zeg maar een soort index.
Deze gegevens zouden dan uit een bepaalde pagina worden gehaald.
Bijvoorbeeld een pagina met overzicht van plaatjes.
Deze pagina wil ik indexeren, inclusief plaatjes en de links naar het plaatje in real-format.
Eventueel is het de bedoeling (ik weet niet of dat handig is/moet?) om de index op te slaan in een database.
Nu vroeg ik me af hoe ik dat het beste kan doen?
Zijn daar al scripts voor dat jullie weten?
Bedankt!
Ik wil eigenlijk het volgende.
Voor een site wil ik gegevens uit een bepaalde site halen.
Zeg maar een soort index.
Deze gegevens zouden dan uit een bepaalde pagina worden gehaald.
Bijvoorbeeld een pagina met overzicht van plaatjes.
Deze pagina wil ik indexeren, inclusief plaatjes en de links naar het plaatje in real-format.
Eventueel is het de bedoeling (ik weet niet of dat handig is/moet?) om de index op te slaan in een database.
Nu vroeg ik me af hoe ik dat het beste kan doen?
Zijn daar al scripts voor dat jullie weten?
Bedankt!
Gesponsorde koppelingen:
De beheerder van die site om een xml feed vragen.
Rippen kan ook, maar dat mag niet gezien de auteursrecht.
Gewijzigd op 23/07/2010 11:23:43 door - Aar -
Aar anoniem op 23/07/2010 10:40:40:
Rippen kan ook, maar is niet netjes, gezien de auteursrecht.
Je bedoelt mag niet vanwege auteursrecht en eventueel vanwege databanken recht.
Nee het is niet de bedoeling om iets van enige site te stelen of oneigenlijk te gebruiken. Het is meer bedoeld als een soort 'search-index' zoals bijv. Google.
Elke site om een xml-bestand vragen lijkt me dus niet echt logisch?
Elke site om een xml-bestand vragen lijkt me dus niet echt logisch?
Gewijzigd op 23/07/2010 11:27:06 door Jan Tje
Dus een zoekmachine? Dan zet je alle adressen best in een database met keywords en al die dingen ;)
Ja daar zat ik ook aan te denken.
Maar het gaat er niet om om bepaalde keywords eruit te halen, maar om een gedeelte (of evt. een gehele site) te indexeren en daar een overzicht van te presenteren.
Maar het gaat er niet om om bepaalde keywords eruit te halen, maar om een gedeelte (of evt. een gehele site) te indexeren en daar een overzicht van te presenteren.
Je wilt dus eigenlijk een soort samenvatting van de website?
Dan kan je naar de meta descriptions kijken, die is daarvoor bedoeld.
De hele tekst opslaan, inclusief verwijzingen naar plaatjes kan je ook opslaan natuurlijk, maar als je die in de exact zelfde lay-out weer wilt weergeven, dan moet je ook de css gaan opslaan.
Anders sla je gewoon de url + keywords op en laat je de pagina zelf zien in een iframe wanneer je deze wilt weergeven.
Dan kan je naar de meta descriptions kijken, die is daarvoor bedoeld.
De hele tekst opslaan, inclusief verwijzingen naar plaatjes kan je ook opslaan natuurlijk, maar als je die in de exact zelfde lay-out weer wilt weergeven, dan moet je ook de css gaan opslaan.
Anders sla je gewoon de url + keywords op en laat je de pagina zelf zien in een iframe wanneer je deze wilt weergeven.
Aar anoniem op 23/07/2010 10:40:40:
Rippen kan ook, maar dat mag niet gezien de auteursrecht.
beetje niet normaal hea rippen is verboden
Als je auteursrechtelijke zooi ophaalt wel ja.
Ik mag natuurlijk wel van mijn eigen sites data rippen (maar ja, daar hebben we eigenlijk RPC, SOAP, XML, RSS voor)
Ik mag natuurlijk wel van mijn eigen sites data rippen (maar ja, daar hebben we eigenlijk RPC, SOAP, XML, RSS voor)
Gewijzigd op 23/07/2010 14:51:38 door - Aar -
Ik wil eigenlijk gewoon een bepaalde pagina scannen (bijv. foto's), daar de titels en de thumbnail uit halen, en deze vervolgens in een overzicht presenteren op een andere site. De link naar de orginele foto moet hij ook over kunnen nemen.
Dus niet echt een koppeling met de metadata, maar echt puur site-info.
Is daar een optie/mogelijkheid voor?
Zijn daar scripts voor, of zijn daar trucs voor?
Dus niet echt een koppeling met de metadata, maar echt puur site-info.
Is daar een optie/mogelijkheid voor?
Zijn daar scripts voor, of zijn daar trucs voor?
Hmm, dan zul je een scriptje maken die alle <img src=""> uit de pagina haalt
cURL voor de requests
en SimpleXML voor het parsen van de pagina's.
Zoek op php.net
en SimpleXML voor het parsen van de pagina's.
Zoek op php.net
Code (php)
1
2
3
4
2
3
4
<?
$content = file_get_contents('http://www.adres.nl');
$content = strip_tags($content,'<html><body><div><span><a><br><p><strong><i><font><u><ul><li>');
?>
$content = file_get_contents('http://www.adres.nl');
$content = strip_tags($content,'<html><body><div><span><a><br><p><strong><i><font><u><ul><li>');
?>
Dan heb je de HEAD eruit, alle script tags, alle IMG tags. Eigenlijk alles wat NIET tussen de haakjes staat.
Gewijzigd op 23/07/2010 21:53:24 door Pieter van Linschoten



