php/ PDF zoekmachine - Forum

- Ariën -

26-01-2026 00:06

Nee, zoeken naar woorden met ocr wordt een lastige opgave met zo een groot aantal PDF'jes. Dus het zal in ieder geval geïndexeerd moeten worden tot tekstueel formaat. Daarvoor kan je 'pdftotext' gebruiken.

Dat kan je dan in een database opslaan en met MySQL Fulltext doorzoeken.

Als je echt een goed schaalbare zoekoptie zoekt, dan kan je kijken naar Apache Solr of Elasticsearch.

Onthoud wel dat je voor dit alles een eigen server nodig hebt.

m mar kla

26-01-2026 10:03 gewijzigd op 26-01-2026 10:15

** quoteknip**
OKe bedankt voor de tip iK ga daar even naar kijken

Maar ik denk eigenlijk dat zo'n project te groot is voor de website van de vereniging. Misschien is het beter als ze contact opnemen met het gemeentearchief of het nationale archief, Die hebben al dergelijke systemen. Maar dan is de vraag vinden die het interessant :-|

- Ariën -

26-01-2026 10:19 gewijzigd op 26-01-2026 10:20

Op welke manier is het te groot? Zijn er te weinig handen en know-how beschikbaar om het realiseren? Of is er te weinig capaciteit voor de data?

Als je een eigen server kan draaien, dan is het natuurlijk een leuk projectje om het eens vorm te geven.
De stappen zijn van: PDF -> Text - > MySQL naar een zoeksysteempje met MySQL FULLTEXT. Dan heb je al heel wat.

Als je intelligenter wilt zoeken, dan is Apache Solr of Elasticsearch erg handig als vervanging voor je database, maar het is niet verplicht voor een dergelijk systeem.

m mar kla

26-01-2026 10:39

Met groot bedoel ik dat ik uit ervaring weet dat het opzetten van zoiets best tijd en moeite kost maar dat het onderhouden ervan er daarna bij in schiet.

Misschien dat ik het van de week even met een WAMP dat Apache Solr of Elasticsearch lokaal ga bekijken!

Je kent het waarschijnlijk wel Het mag niks kosten maar het moet er wel professioneel uit zien en functioneren ;-)

- Ariën -

26-01-2026 10:57

Voor de liefhebber is het een leuk project. En gelukkig kunnen we ook vibecoden met behulp van AI. ;-)
Al raad ik wel aan dat je wel weet wat je doet.

- Ariën -

02-02-2026 11:33

Is er nog wat uitgekomen van het project? Of is er gekozen voor bestaande oplossingen?
Ik, en vast ook anderen, zijn benieuwd naar de afloop.

m mar kla

02-02-2026 15:35

- Ariën - op 02/02/2026 11:33:18

Is er nog wat uitgekomen van het project? Of is er gekozen voor bestaande oplossingen?
Ik, en vast ook anderen, zijn benieuwd naar de afloop.

Het ligt voorlopig even in het vriesvakje van de koelkast.
Zelf wil ik eerste alle magazines gescand hebben, of in ieder geval de eerste ±75 jaar.
Ondertussen eens kijken wat er voor bestaande oplossingen zijn. Misschien zoeken naar een samenwerking met het gemeente of nationale archief oid

Michael -

11-05-2026 10:19

Mar kla op 02/02/2026 15:35:39

[quote="- Ariën - op 02/02/2026 11:33:18"]
Is er nog wat uitgekomen van het project? Of is er gekozen voor bestaande oplossingen?
Ik, en vast ook anderen, zijn benieuwd naar de afloop.

Het ligt voorlopig even in het vriesvakje van de koelkast.
Zelf wil ik eerste alle magazines gescand hebben, of in ieder geval de eerste ±75 jaar.
Ondertussen eens kijken wat er voor bestaande oplossingen zijn. Misschien zoeken naar een samenwerking met het gemeente of nationale archief oid

[/quote]
Zijn er nog updates?

Opzich is je idee helemaal niet zo ingewikkeld. Zeker als je het hebt over 1500 PDF's is dit maar een hele kleine data-set. Als je de PDF's dan al hebt omgezet naar tekst kom je met MySQL Full-Text Search al een heel eind. Zie je dat er in de toekomst nog heel veel data bij komt, dan is Meilisearch, Typesense of Elasticsearch/OpenSearch toekomstbestendiger.

m mar kla

11-05-2026 11:04

Het projectje ligt even stil door onderlinge meningsverschillen in het bestuur. De bladen (de eerste ± 75 jaar iig) staan nu als PDF online op een fansite. En Google search is die aan het indexeren en ik heb al zoek resultaten op terug gevonden.

Michael -

11-05-2026 11:25

Mar kla op 11/05/2026 11:04:29

Het projectje ligt even stil door onderlinge meningsverschillen in het bestuur. De bladen (de eerste ± 75 jaar iig) staan nu als PDF online op een fansite. En Google search is die aan het indexeren en ik heb al zoek resultaten op terug gevonden.

Die meningsverschillen is jammer, maar fijn dat je al wel een stap verder bent gekomen.
Mocht je nog wat hulp nodig hebben met je project dan horen we het graag.