Versio

Gegevens uit site halen

Overzicht Reageren

Jan Tje

Jan Tje

23/07/2010 09:56:48
Quote Anchor link
Goedemorgen,

Ik wil eigenlijk het volgende.
Voor een site wil ik gegevens uit een bepaalde site halen.
Zeg maar een soort index.
Deze gegevens zouden dan uit een bepaalde pagina worden gehaald.
Bijvoorbeeld een pagina met overzicht van plaatjes.
Deze pagina wil ik indexeren, inclusief plaatjes en de links naar het plaatje in real-format.

Eventueel is het de bedoeling (ik weet niet of dat handig is/moet?) om de index op te slaan in een database.

Nu vroeg ik me af hoe ik dat het beste kan doen?
Zijn daar al scripts voor dat jullie weten?

Bedankt!
 
PHP hulp

PHP hulp

24/05/2012 19:33:48
Gesponsorde koppelingen:
BHosted Hosting al vanaf € 1,- per maand

Controleer nu gratis jouw domeinnaam:

  
 
TJVB tvb

TJVB tvb

23/07/2010 10:07:16
Quote Anchor link
De beheerder van die site om een xml feed vragen.
 
- Aar -

- Aar -

23/07/2010 10:40:40
Quote Anchor link
Rippen kan ook, maar dat mag niet gezien de auteursrecht.
Gewijzigd op 23/07/2010 11:23:43 door - Aar -
 
TJVB tvb

TJVB tvb

23/07/2010 11:20:03
Quote Anchor link
Aar anoniem op 23/07/2010 10:40:40:
Rippen kan ook, maar is niet netjes, gezien de auteursrecht.


Je bedoelt mag niet vanwege auteursrecht en eventueel vanwege databanken recht.
 
Jan Tje

Jan Tje

23/07/2010 11:26:46
Quote Anchor link
Nee het is niet de bedoeling om iets van enige site te stelen of oneigenlijk te gebruiken. Het is meer bedoeld als een soort 'search-index' zoals bijv. Google.
Elke site om een xml-bestand vragen lijkt me dus niet echt logisch?
Gewijzigd op 23/07/2010 11:27:06 door Jan Tje
 
- Raoul -
Redacteur

- Raoul -

23/07/2010 11:49:52
Quote Anchor link
Dus een zoekmachine? Dan zet je alle adressen best in een database met keywords en al die dingen ;)
 
Jan Tje

Jan Tje

23/07/2010 12:32:51
Quote Anchor link
Ja daar zat ik ook aan te denken.
Maar het gaat er niet om om bepaalde keywords eruit te halen, maar om een gedeelte (of evt. een gehele site) te indexeren en daar een overzicht van te presenteren.
 
Johan Dam

Johan Dam

23/07/2010 13:30:05
Quote Anchor link
Je wilt dus eigenlijk een soort samenvatting van de website?

Dan kan je naar de meta descriptions kijken, die is daarvoor bedoeld.

De hele tekst opslaan, inclusief verwijzingen naar plaatjes kan je ook opslaan natuurlijk, maar als je die in de exact zelfde lay-out weer wilt weergeven, dan moet je ook de css gaan opslaan.

Anders sla je gewoon de url + keywords op en laat je de pagina zelf zien in een iframe wanneer je deze wilt weergeven.
 
Marco van dijk

marco van dijk

23/07/2010 14:42:11
Quote Anchor link
Aar anoniem op 23/07/2010 10:40:40:
Rippen kan ook, maar dat mag niet gezien de auteursrecht.

beetje niet normaal hea rippen is verboden
 
- Aar -

- Aar -

23/07/2010 14:51:17
Quote Anchor link
Als je auteursrechtelijke zooi ophaalt wel ja.
Ik mag natuurlijk wel van mijn eigen sites data rippen (maar ja, daar hebben we eigenlijk RPC, SOAP, XML, RSS voor)
Gewijzigd op 23/07/2010 14:51:38 door - Aar -
 
Jan Tje

Jan Tje

23/07/2010 15:12:12
Quote Anchor link
Ik wil eigenlijk gewoon een bepaalde pagina scannen (bijv. foto's), daar de titels en de thumbnail uit halen, en deze vervolgens in een overzicht presenteren op een andere site. De link naar de orginele foto moet hij ook over kunnen nemen.

Dus niet echt een koppeling met de metadata, maar echt puur site-info.

Is daar een optie/mogelijkheid voor?
Zijn daar scripts voor, of zijn daar trucs voor?
 
- Raoul -
Redacteur

- Raoul -

23/07/2010 17:20:48
Quote Anchor link
Hmm, dan zul je een scriptje maken die alle <img src=""> uit de pagina haalt
 
Pim -

Pim -

23/07/2010 20:46:01
Quote Anchor link
cURL voor de requests
en SimpleXML voor het parsen van de pagina's.
Zoek op php.net
 
Pieter van Linschoten

Pieter van Linschoten

23/07/2010 21:52:09
Quote Anchor link
Code (php)
PHP script in nieuw venster Selecteer het PHP script
1
2
3
4
<?
$content
= file_get_contents('http://www.adres.nl');
$content = strip_tags($content,'<html><body><div><span><a><br><p><strong><i><font><u><ul><li>');
?>


Dan heb je de HEAD eruit, alle script tags, alle IMG tags. Eigenlijk alles wat NIET tussen de haakjes staat.
Gewijzigd op 23/07/2010 21:53:24 door Pieter van Linschoten
 



Overzicht Reageren