Voor een vereniging ben ik opzoek naar een methode om de oude clubbladen digitaal doorzoekbaar te maken.
Er zijn ± 1500 "boekjes" waarvan het merendeel als OCR PDF bestanden zijn.
Is er een PHP/MySQL script/methode/techniek die het mogelijk maakt om de bezoeker naar woorden in de PDF files te zoeken en dan de PDF bestand met het betreffende zoekwoord te presenteren?
Zeg maar een eigen Google search ;-|
Nee, zoeken naar woorden met ocr wordt een lastige opgave met zo een groot aantal PDF'jes. Dus het zal in ieder geval geïndexeerd moeten worden tot tekstueel formaat. Daarvoor kan je 'pdftotext' gebruiken.
Dat kan je dan in een database opslaan en met MySQL Fulltext doorzoeken.
Als je echt een goed schaalbare zoekoptie zoekt, dan kan je kijken naar Apache Solr of Elasticsearch.
Onthoud wel dat je voor dit alles een eigen server nodig hebt.
** quoteknip**
OKe bedankt voor de tip iK ga daar even naar kijken
Maar ik denk eigenlijk dat zo'n project te groot is voor de website van de vereniging. Misschien is het beter als ze contact opnemen met het gemeentearchief of het nationale archief, Die hebben al dergelijke systemen. Maar dan is de vraag vinden die het interessant :-|
Op welke manier is het te groot? Zijn er te weinig handen en know-how beschikbaar om het realiseren? Of is er te weinig capaciteit voor de data?
Als je een eigen server kan draaien, dan is het natuurlijk een leuk projectje om het eens vorm te geven.
De stappen zijn van: PDF -> Text - > MySQL naar een zoeksysteempje met MySQL FULLTEXT. Dan heb je al heel wat.
Als je intelligenter wilt zoeken, dan is Apache Solr of Elasticsearch erg handig als vervanging voor je database, maar het is niet verplicht voor een dergelijk systeem.
Met groot bedoel ik dat ik uit ervaring weet dat het opzetten van zoiets best tijd en moeite kost maar dat het onderhouden ervan er daarna bij in schiet.
Misschien dat ik het van de week even met een WAMP dat Apache Solr of Elasticsearch lokaal ga bekijken!
Je kent het waarschijnlijk wel Het mag niks kosten maar het moet er wel professioneel uit zien en functioneren ;-)
Is er nog wat uitgekomen van het project? Of is er gekozen voor bestaande oplossingen?
Ik, en vast ook anderen, zijn benieuwd naar de afloop.
Het ligt voorlopig even in het vriesvakje van de koelkast.
Zelf wil ik eerste alle magazines gescand hebben, of in ieder geval de eerste ±75 jaar.
Ondertussen eens kijken wat er voor bestaande oplossingen zijn. Misschien zoeken naar een samenwerking met het gemeente of nationale archief oid
[quote="- Ariën - op 02/02/2026 11:33:18"]
Is er nog wat uitgekomen van het project? Of is er gekozen voor bestaande oplossingen?
Ik, en vast ook anderen, zijn benieuwd naar de afloop.
Het ligt voorlopig even in het vriesvakje van de koelkast.
Zelf wil ik eerste alle magazines gescand hebben, of in ieder geval de eerste ±75 jaar.
Ondertussen eens kijken wat er voor bestaande oplossingen zijn. Misschien zoeken naar een samenwerking met het gemeente of nationale archief oid
[/quote]
Zijn er nog updates?
Opzich is je idee helemaal niet zo ingewikkeld. Zeker als je het hebt over 1500 PDF's is dit maar een hele kleine data-set. Als je de PDF's dan al hebt omgezet naar tekst kom je met MySQL Full-Text Search al een heel eind. Zie je dat er in de toekomst nog heel veel data bij komt, dan is Meilisearch, Typesense of Elasticsearch/OpenSearch toekomstbestendiger.
Het projectje ligt even stil door onderlinge meningsverschillen in het bestuur. De bladen (de eerste ± 75 jaar iig) staan nu als PDF online op een fansite. En Google search is die aan het indexeren en ik heb al zoek resultaten op terug gevonden.
Het projectje ligt even stil door onderlinge meningsverschillen in het bestuur. De bladen (de eerste ± 75 jaar iig) staan nu als PDF online op een fansite. En Google search is die aan het indexeren en ik heb al zoek resultaten op terug gevonden.
Die meningsverschillen is jammer, maar fijn dat je al wel een stap verder bent gekomen.
Mocht je nog wat hulp nodig hebben met je project dan horen we het graag.