ik heb een vraagje, is het mogenlijk om een bestaandde pdf file met behulp van een pdf scripje te lezen? zodat ik de tekst uit de pdf in een variabele heb? En zo ja, hoe doe ik dat...
pdf = Portable Document Format. dit betekend dat je een programma nodig hebt om het te kunnen lezen. het werkt als volgt: (vanuit een grafische standpunt) de bits en bits van het bestand vormen geen woorden uit letters maar uit vormen. het is dus meer een plaatje als echt tekst. het is technische iets gecompliceerder maar de strekking klopt. het is volgens mij net zo min mogelijk als tekst halen uit een swf. (flash)
rest mij alleen nog te vragen waar je dat voor nodig hebt?
Ik heb een webshop in ouderhoud, en 1 van de leveranciers is creatief bezig geweest met PDF. Met andere woorden: de inkoopprijzen worden aangeleverd in een keurig netjes PDF bestandje. Ziet er leuk uit, maar ik heb er zo dus in mn scripje niet veel aan.
Tot een paar weken geleden stonden de inkoopprijzen gewoon in html op zn website. En toen kon ik heel simpel de prijzen uit de html strippen, en zodoende 1 keer per maand op een redelijk eenvoudige wijze ff van een 1200 artikelen kijken of de prijs nog kloppte, en of het artiekel ubberhaupt nog wel leverbaar was.
Maar nu met die PDF word ik daar dus niet vrolijk van....
?
Onbekende gebruiker
04-02-2006 19:46
Heb je al eens naar de PDF extensies op PHP.net gekeken?
Kunnen de leveranciers geen bestanden in xml- (met soap ?) of csv-formaat aanleveren? Vele malen eenvoudiger en waarschijnlijk beschikt men al over 1 van beide formaten. Vraag er eens naar.
Kunnen de leveranciers geen bestanden in xml- (met soap ?) of csv-formaat aanleveren? Vele malen eenvoudiger en waarschijnlijk beschikt men al over 1 van beide formaten. Vraag er eens naar.
Eeey ik kom nog ff melden hoe het met die pdf zit. Ik heb dus ff gemaild, maar het antwoord was simpel:
Goedemiddag,
Helaas de prijslijst is niet beschikbaar in XML-formaat.
Met vriendelijke groet,
Had al z'on vaag vermoeden, ik vraag me af of ze ubberhaupt weten wat XML is.
Maar goed, nu verder. Hierboven word gesuggereerd dat een PDF eigenlijk een soort van afbeelding is. Dat is dan misschien wel zo, maar in iedergeval is het zo dat de text en de afbeeldingen apart in 1 bestand zitten, en te scheiden zijn, en dat de text (in de meeste gevallen) gewoon echt text is. Kijk maar naar diverse zoekamchines, die hebben regelmatig PDF files in hun zoekresultaten zitten. Dus blijkbaar weten ze wat erin staat.
Maar goed, na wat gegoogle, kwam ik op XPDF uit. Op php.net bij de PDF functie uitleg word hierover in het commentaar ook al over gesproken. Dus: yum install xpdf en xpdf is geinstalleerd. In dit pakketje(4 mb) komt ook het progje pdftotxt mee. En hiermee is het een eitje om de text uit een pdf te vissen. Vervolgens nog wel een scripje maken wat die regels 1 voor 1 leest, en de merken, types en prijs uithaalt, maar dat komt wel goed.