Hoi,

ik heb een vraagje, is het mogenlijk om een bestaandde pdf file met behulp van een pdf scripje te lezen? zodat ik de tekst uit de pdf in een variabele heb? En zo ja, hoe doe ik dat...

groet,
arie
pdf = Portable Document Format. dit betekend dat je een programma nodig hebt om het te kunnen lezen. het werkt als volgt: (vanuit een grafische standpunt) de bits en bits van het bestand vormen geen woorden uit letters maar uit vormen. het is dus meer een plaatje als echt tekst. het is technische iets gecompliceerder maar de strekking klopt. het is volgens mij net zo min mogelijk als tekst halen uit een swf. (flash)

rest mij alleen nog te vragen waar je dat voor nodig hebt?
Ik heb een webshop in ouderhoud, en 1 van de leveranciers is creatief bezig geweest met PDF. Met andere woorden: de inkoopprijzen worden aangeleverd in een keurig netjes PDF bestandje. Ziet er leuk uit, maar ik heb er zo dus in mn scripje niet veel aan.

Tot een paar weken geleden stonden de inkoopprijzen gewoon in html op zn website. En toen kon ik heel simpel de prijzen uit de html strippen, en zodoende 1 keer per maand op een redelijk eenvoudige wijze ff van een 1200 artikelen kijken of de prijs nog kloppte, en of het artiekel ubberhaupt nog wel leverbaar was.

Maar nu met die PDF word ik daar dus niet vrolijk van....

Heb je al eens naar de PDF extensies op PHP.net gekeken?
Kunnen de leveranciers geen bestanden in xml- (met soap ?) of csv-formaat aanleveren? Vele malen eenvoudiger en waarschijnlijk beschikt men al over 1 van beide formaten. Vraag er eens naar.
Sebastiaan schreef op 04.02.2006 19:46
Heb je al eens naar de PDF extensies op PHP.net gekeken?
Ja heb ik al naar gekeken, daar kan je een PDF mee maken, maar kan je daar ook een PDF mee lezen?
Nope

PDF bestand is niets meer dan een print van een bestand...
Frank schreef op 04.02.2006 19:48
Kunnen de leveranciers geen bestanden in xml- (met soap ?) of csv-formaat aanleveren? Vele malen eenvoudiger en waarschijnlijk beschikt men al over 1 van beide formaten. Vraag er eens naar.
Ik zal er volgende week eens naar vragen
Hmmm... Nou dan toch maar eens gaan mailen over xml of csv....
Eeey ik kom nog ff melden hoe het met die pdf zit. Ik heb dus ff gemaild, maar het antwoord was simpel:

Goedemiddag,

Helaas de prijslijst is niet beschikbaar in XML-formaat.

Met vriendelijke groet,

Had al z'on vaag vermoeden, ik vraag me af of ze ubberhaupt weten wat XML is.


Maar goed, nu verder. Hierboven word gesuggereerd dat een PDF eigenlijk een soort van afbeelding is. Dat is dan misschien wel zo, maar in iedergeval is het zo dat de text en de afbeeldingen apart in 1 bestand zitten, en te scheiden zijn, en dat de text (in de meeste gevallen) gewoon echt text is. Kijk maar naar diverse zoekamchines, die hebben regelmatig PDF files in hun zoekresultaten zitten. Dus blijkbaar weten ze wat erin staat.

Ik zat ook te denken: hoe zal een blinde een PDF kunnen lezen? Dus maar ff gekeken op http://www.blindsupport.be/faqpdf.php Voila...

Maar goed, na wat gegoogle, kwam ik op XPDF uit. Op php.net bij de PDF functie uitleg word hierover in het commentaar ook al over gesproken. Dus: yum install xpdf en xpdf is geinstalleerd. In dit pakketje(4 mb) komt ook het progje pdftotxt mee. En hiermee is het een eitje om de text uit een pdf te vissen. Vervolgens nog wel een scripje maken wat die regels 1 voor 1 leest, en de merken, types en prijs uithaalt, maar dat komt wel goed.
Als je je script nu naar je server zal uploaden zal het waarschijnlijk niet werken omdat het die eigen pdf module gebruikt.

Misschien moet je maar eens een scriptje posten van pdf

Reageren