Zin opsplitsen in "deelproblemen" ivm vertaling

Klein team zoekt grote fullstack .NET developer to

Bedrijfsomschrijving Deze werkgever is marktleider in de Benelux en is Europees ook al aardig aan de weg aan het timmeren. Ze voorzien technische winkels van apparatuur om producten een langer leven te geven. Hiermee reduceren ze flink wat CO2 uitstoot en dat is natuurlijk goed voor iedereen! IT speelt een belangrijke rol in de bedrijfsvoering en de applicaties zijn van goed niveau. Als fullstack .NET developer ga jij je bijdrage leveren aan het verder verbeteren van de applicaties en de interne processen. Ze zijn nu met ruim 50 medewerkers in totaal en de afdeling development bestaat uit een 5tal developers.

Bekijk vacature »

Junior Low-code ontwikkelaar gezocht omgeving Arnh

Bedrijfsomschrijving Wij zijn een dynamisch IT-bedrijf dat zich richt op het stroomlijnen van bedrijfsprocessen en het creÃ«ren van ondersteunende applicaties. Onze kracht ligt in het combineren van zakelijk inzicht met IT-expertise via gestroomlijnde procesontwerpen en wendbare applicatieontwikkeling met behulp van Low-code technologieÃ«n. Als jonge professional krijg je de kans om samen te werken met een team van 15 deskundige collega's, verspreid over nationale en internationale locaties. We bieden je een leerzame omgeving waar je je vaardigheden kunt ontwikkelen en groeien in je rol als Low-code ontwikkelaar. Word jij onze nieuwe Junior Low-code Ontwikkelaar (OutSystems)? Versterk ons team en draag bij

Bekijk vacature »

SAP Integratie Ontwikkelaar

Ben jij ambitieus in de verdere ontwikkeling van SAP binnen HANOS, en heb je kennis van SAP PI, CPI (SAP integration suite) en of andere middleware tooling? Dan ben jij mogelijk onze nieuwe SAP Integratie (middleware) Ontwikkelaar! Lees snel verder en solliciteer! Wat ga je doen? Als SAP Financieel Consultant ben je, als deel van een gedreven team van interne SAP consultants, de schakel tussen de gebruikersorganisatie en ICT. Je draagt proactief bij aan een optimale aansluiting van de SAP-functionaliteit (een applicatielandschap met o.a. Suite on HANA, Fiori, Hybris, C4C en BO), op de bedrijfsprocessen. Verder ondersteun je de HANOS

Bekijk vacature »

Informeel bureau zoekt Senior PHP developer

Functie Als senior PHP developer neem je het voortouw in ontwikkeltrajecten en ben je in staat werk uit te leggen aan collegaâ€™s om zo je kennis met hen te delen. Je deinst niet terug voor ingewikkelde projecten. Deze zie jij alleen maar als uit uitdaging. Je werkt doorlopend aan klantcases (en hierdoor je klant echt leert kennen), maar toch ben je afwisselend bezig. Dit alles in een vrije en ontspannen werksfeer, met een team van gelijkgestemde. Binnen de development teams werken ze met o.a. PHP, Laravel, React, Node, Elastic, Amazon AWS, JIRA, Solid, Domain-driven-design, Doctrine, Redis, docker, Kubernetes, CI, PHP

Bekijk vacature »

Belastingdienst - Freelance Senior Applicatie ontw

Startdatum: 01.06.2023 Richttarief: â‚¬65,00 - â‚¬75,00 Duur van de opdracht: 6 maanden Uren per week: 36 Taal: Nederlands vereist! Gelieve in het Nederlands te solliciteren. Functieomschrijving: We verwachten van je, dat je: Brede ervaring hebt als JAVA-ontwikkelaar; Ervaring hebt met Agile/Scrum-werken en je thuis voelt in een Agile omgeving; Een aandeel levert aan het scrumproces en in de SAFe-releasetrain; Zelfstandig werkt in een scrumteam en intensief de samenwerking op zoekt met je directe collegaâ€™s en je omgeving; Ervaring meebrengt met het schattten en inplannen van taken tot en met het testen en demonstreren van de opgeleverde functionaliteit; Collegaâ€™s in je

Bekijk vacature »

Belastingdienst - Freelance Senior Cobol Applicati

Startdatum: 01.06.2023 Richttarief: â‚¬65,00 - â‚¬75,00 Duur van de opdracht: 7 maanden Uren per week: 36 Taal: Nederlands vereist! Gelieve in het Nederlands te solliciteren. Functieomschrijving: In de applicatie ETM zijn nu de inningsvoorzieningen voor ongeveer 25 aangifte- en aanslagmiddelen opgenomen. ETM is een extern aangeschafte service en het huidige contract met leverancier Oracle loopt af op 31-12-2022. Het programma uitfaseren ETM heeft als doel om vervanging te realiseren waarmee alle nu in gebruik zijnde ETM ondersteuning wordt overgenomen in nieuwe Inningsvoorzieningen om de continuÃ¯teit van de inningsprocessen te waarborgen. EÃ©n van de inningsvoorzieningen die voor het einde van 31-12-2022

Bekijk vacature »

Belastingdienst - Freelance Applicatieontwikkelaar

Startdatum: 01.06.2023 Richttarief: â‚¬65,00 - â‚¬75,00 Duur van de opdracht: 6 maanden Uren per week: 36 Taal: Nederlands vereist! Gelieve in het Nederlands te solliciteren. Hybride. Kantoordagen in Utrecht, incidenteel in Apeldoorn Functieomschrijving: De afdeling IV â€“ Generieke Voorzieningen â€“ Interactie Online is onderdeel van de keten Interactie. De missie van de keten is: â€œhet faciliteren van de interactie met alle burgers, bedrijven en hun vertegenwoordigers om hen in staat te stellen aan hun fiscale verplichtingen te voldoen en aanspraak te maken op hun rechten.â€ De afdeling Interactie Online heeft een belangrijke bijdrage binnen deze keten. Dit door het ontwikkelen

Bekijk vacature »

IT Infrastructuur Developer

IT Infrastructuur Developer Ben jij (bijna) klaar met je HBO studie in de richting van IT? Opzoek naar een spannende eerste baan, waar je ontzettend veel kan leren? Dan hebben wij de ultieme job voor jou! Voor een goede klant van ons in de financiÃ«le dienstverlening zijn wij opzoek naar een Junior Infrastructure Developer. Deze baan is een mooie kans om een sterke start te geven aan jouw carriÃ¨re binnen de IT! De job Je werkt nauw samen met het Devops team, en zal je voornamelijk bezighouden met het automatiseren van infrastructure componenten. De componenten worden opgevraagd door het DevOps

Bekijk vacature »

Backend Developer Integraties API HBO REST

Samengevat: Deze werkgever is een IT-consultancy. Wil jij werken als Backend Developer Integraties? Heb jij kennis van gangbare berichtformaten? Vaste baan: Backend Developer Integraties API HBO â‚¬3.100 - â‚¬4.400 Zij bieden innovatieve oplossingen die bedrijven efficiÃ«nter en wendbaarder maken, waardoor onze klanten zich net zo snel kunnen ontwikkelen als de business van hen vraagt. Bij bij hun werk je aan onze eigen bedrijfsapplicaties. Je ontwikkelt met ons de meest nieuwe software. Wij blinken uit als het gaat om de inzet van technologie. Deze werkgever staat open voor elke nieuwe trend. Onze systemen zijn groot en ingewikkeld. Hou jij van diepgang

Bekijk vacature »

Junior / Medior C# .NET ontwikkelaar in Brabants t

Bedrijfsomschrijving Ben jij een gepassioneerde C# .NET ontwikkelaar met een voorliefde voor hardware? Dan is dit de perfecte kans voor jou! Bij ons bedrijf krijg je de kans om deel uit te maken van een team van sociale en enthousiaste techneuten die er elke dag naar streven om onze eigen ontwikkelde software nog beter te maken. Het team van ongeveer 10 team medewerkers maakt zich hard om de interne processen gestroomlijnd te laten verlopen. Functieomschrijving Als lid van ons hechte en behulpzame team word je betrokken bij diverse projecten. Daarbij krijg je te maken met data-analyses, content en de logistieke

Bekijk vacature »

C# .NET developer voor innovatieve applicaties gez

Bedrijfsomschrijving Deze werkgever houdt zich al ruim 20 jaar bezig met het ontwikkelen van innovatieve software en dat willen ze graag nog lang doorzetten. En dat merk je ook als je als .NET developer hier aan de slag gaat. De applicaties worden continu doorontwikkeld met altijd als uitgangspunt dat zowel de kwaliteit als het gebruikersgemak van hoog niveau is. Het bedrijf telt inmiddels ruim 25 medewerkers waarvan meer dan de helft op de development afdeling werken. Meer weten over deze werkgever? Mail naar [email protected] of bel 0657578548 Functieomschrijving Je komt te werken in een Scrum team met andere .NET developers

Bekijk vacature »

Traineeship Full Stack .NET Developer

Dit ga je doen Start op 7 augustus 2023 bij de Experis Academy en ontwikkel jezelf tot een gewilde Full Stack .NET Developer. Maar hoe ziet het traineeship eruit en wat kun je verwachten? Periode 1 De eerste 3 maanden volg je fulltime, vanuit huis, een op maat gemaakte training in teamverband. Je leert belangrijke theorie en krijgt kennis van de benodigde vaardigheden en competenties die nodig zijn om de IT-arbeidsmarkt te betreden. Zowel zelfstandig als in teamverband voer je praktijkopdrachten op het gebied van front- en backend development uit. Wat er per week op het programma staat kun je

Bekijk vacature »

Traineeship Full Stack Java developer

Dit ga je doen Start jij op 7 augustus bij de Experis Academy dan kickstart jij jouw IT-carriÃ¨re! We leiden je op tot een gewilde Full Stack Java Developer met alle kennis en vaardigheden die nodig zijn om de arbeidsmarkt te betreden. Wat kun je verwachten, hoe zit een dag in het leven van een Trainee eruit? Periode 1 Als Full Stack Java Developer Trainee volg je vanuit huis een op maat gemaakte onlinetraining die in het Engels wordt gegeven. De tijd die je kwijt bent aan het volgen van de training kun je vergelijken met een fulltime werkweek. In

Bekijk vacature »

Trainee pega developer

Wil jij een mooie stap maken in jouw carriÃ¨re? Mooi! Bij De Mandemakers Groep haal je binnen 6 maanden je CSA- en CSSA-certificaten, waarna jij aan de slag kan als Pega-developer in ons IT-team. Achter de schermen zorg jij ervoor dat collegaâ€™s efficiÃ«nt werken en klanten iedere dag beter geholpen worden. Wil jij daaraan bijdragen? En jouw ICT-skills ontwikkelen? Lees dan snel verder en solliciteer vandaag nog als trainee Pega-developer. Wat ga je doen? Als trainee Pega developer leiden wij je op tot gecertificeerd software developer voor het low-code platform PegaSystems. In de training ben je verantwoordelijk voor een te

Bekijk vacature »

Infrastructure Developer

Vacature details Vakgebied: Software/IT Opleiding: Senior Werklocatie: Eindhoven Vacature ID: 12945 Introductie Our client is one of the most innovative companies within the Netherlands. Currently we are looking for an Infrastructure Platform Engineer. Within this role you will be developing the infrastructure. Functieomschrijving Within this role you are responsible in the development of our distributed data and compute platform infrastructure. You will design, develop and implement new features and fixes. Next to this you will integrate and configurate other packages that supports the development of tuning applications within the organisation. You will support customer sites remotely. Design and implement the

Bekijk vacature »

Rob Doemaarwat

21/08/2020 19:10:27

Voor artikelen in een webshop krijg ik vanuit verschillende kanalen data aangeleverd. Een deel van die data is op basis van vaste kenmerken (merk, prijs, enz). Daarnaast is er altijd nog het afvoerputje "opmerkingen". Hierin staan enerzijds de opmerkingen die de leverancier zelf heeft ingevoerd, en anderzijds kenmerken die aan onze kant (of halverwege het "doorgeef" proces) geen eigen veld hebben. Een opmerking kan dus bijvoorbeeld iets zijn van "Foo Bar 1.6 / Past ook op Noot Mies 1.6 / Let op: krassen aan achterzijde / OEM 123ABC456". Voor de goede orde heb ik het geheel nog een beetje gescheiden dmv slashes, maar meestal is het gewoon een grote brei aan "tekst" (en soms ook nog in meerdere talen). Nou willen we deze tekst automatisch gaan vertalen (Google / Azure / Yandex Translate), maar daar betaal je per te vertalen karakter, en het gaat om heel veel artikelen, en om een flink aantal talen = hoge rekening als je alles maar klakkeloos door de vertaalmolen draait ...

Een groot deel van deze "opmerkingen" is echter "algemene bagger" die niet vertaald hoeft/kan worden. Zo zijn "Foo Bar" en "Noot Mies" bijvoorbeeld merken (we hebben een lijst met merken), en die blijven natuurlijk gelijk. "1.6" is ook niet iets wat in het Engels heel anders zal worden (beter: ook niet moet worden). Een tekst als "Past ook op" komt regelmatig voor en hoeft dus niet elke keer vertaald te worden. Kortom: in bovenstaand voorbeeld zou dus eigenlijk alleen "krassen aan achterzijde" vertaald moeten worden.

Ik heb al een analyse methode om "algemene zinsdelen" er uit te halen (zoals "Past ook op"). Ook merken en nummers zijn eenvoudig te "detecteren". Kortom: ik ben al zover dat ik "weet" dat ik enkel nog "krassen aan achterzijde" hoef te vertalen. Het probleem is nu: hoe ga ik dit handig doen. Ik zit nu op de toer waarbij ik delen van de zin markeer (dmv "markers") als bijvoorbeeld zijnde "zo laten" (merken, nummers), "standaardzin 21", enz. Tijdens het vertalen (per doel-taal) kan ik dan de "zo laten" delen ... zo laten, en voor de standaardzinnen de juiste "reeds vertaalde" zinsneden ophalen (in de juiste taal). Maar ik doe dit letterlijk "in de zin". Bovenstaande zin wordt dus iets van "<~~Foo Bar~~> <~~1.6~~> / <~~algemeen=21~~> <~~Noot Mies~~> <~~1.6~~> / <~~algemeen=41~~> krassen aan achterzijde / <~~algemeen=28~~> <~~123ABC456~~>". Kortom: alles tussen <~~ ... ~~> is iets wat ik lokaal kan "vertalen" (of niet hoef te vertalen), en alleen het stukje "krassen aan achterzijde" hoeft naar de vertaalservice (23 ipv 89 karakters; in mijn analyse kwam ik zelfs tot 11% = 89% kosten reductie). Dit is veelal een regex gebeuren (bijvoorbeeld preg_replace('/\\b(\\w*\\d\\w*)\\b/', '<~~$1~~>', $str) om "nummers" tussen markers te krijgen).

Alleen: dit kraakt. Het voelt alsof je een beetje met een hamer net zolang ergens op staat te rammen tot het de goede vorm heeft. Niet bepaald subtiel dus (en het is natuurlijk wachten op de eerste opmerking met "<~~" er in ...). Het liefst zou ik de zin in een array splitsen met dan per zinsdeel de bijbehorende "methode":

Code (php)

1
2
3
4
5
6
7
8
9
10
11
12
13
14

$sentence = [
  ['str' => 'Foo Bar', 'type' => 'make'],
  ['str' => '1.6', 'type' => 'number'],
  ['str' => ' / ', 'type' => 'other'],
  ['str' => 'Past ook op ', 'type' => 'common', 'id' => 21'],
  ['str' => 'Noot Mies', 'type' => 'make'],
  ['str' => '1.6', 'type' => 'number'],
  ['str' => ' / ', 'type' => 'other'],
  ['str' => 'Let op: ', 'type' => 'common', 'id' => 41],
  ['str' => 'krassen aan achterzijde', 'type' => 'trans'],
  ['str' => ' / ', 'type' => 'other'],
  ['str' => 'OEM', 'type' => 'common', 'id' => 28],
  ['str' => '123ABC456', 'type' => 'number']
];

Vervolgens is het een kwestie van per taal de array doorlopen, en per type zinsdeel de juiste actie ondernemen (en vervolgens de boel weer aan elkaar plakken en ergens opslaan). Een stuk mooier dus.

Vraag is nu: hoe ga ik de originele zin zo mooi "tokenizen" op basis van alle verschillende "type" zinsdeel? Ik kan natuurlijk het "search & replace" resultaat wat ik nu al heb gaan splitsen op de markers, maar dan blijft dat "slaan met de hamer" gevoel hangen. Het liefst zou ik de zin direct in bovenstaande mootjes hakken.

PHP hulp

09/11/2024 04:09:19

Moderator

Ward van der Put

21/08/2020 19:38:42

Een translation memory (TM) is daarvoor een oplossing. Daarmee hoef je eerder vertaalde strings niet opnieuw te vertalen én kun je permanent menselijke corecties van machinevertaalfouten vastleggen.

Als je avontuurlijk bent aangelegd, lijkt me dit een ideaal experiment om de mogelijkheden van machine learning eens stevig aan de tand te voelen. ;)

Thomas van den Heuvel

21/08/2020 20:24:57

Maar propageer je hiermee niet het probleem? Je hebt een onsamenhangende betekenisloze brei die je wilt vertalen naar... een andere onsamenhangende betekenisloze brei?

Zou je niet op een andere manier mening/betekenis kunnen geven aan deze informatie zodat deze min of meer in "vakjes" past? Dus in de vorm van eigenschappen en bijbehorende waarden? Je hoeft dan "enkel" de labels te vertalen.

Heb je al eens bij wijze van experiment gekeken of je dit in een soort van indeling kunt gieten met tags oid?

Misschien zou je dit ook deels aan de koppeling-kant kunnen oplossen? Wellicht als je meer ruimte biedt voor invoer in plaats van de eerder genoemde afvoerput komt deze informatie misschien beter tot zijn recht? Kunnen er afspraken gemaakt worden over het meer standaardiseren van het formaat van aangeleverde informatie? Anders blijft het toch een beetje shit out/shit in.

Daarnaast zou je kunnen kijken welke informatie relevant is en welke niet. Als de informatie relevant is dan zou ik zeggen dat een eigen plekje gerechtvaardigd is en als deze niet relevant is waarom zou je dan moeite doen om deze op te slaan en/of te vertalen?

Je bent nu vooral bezig met de vraag "hoe ga ik dit aanpakken", maar hoe zit het met de vragen "heb ik deze informatie nodig", "hoe wordt deze (vervolgens) ingezet/gebruikt" en "is dit de enige/beste/eenvoudigste aanpak die leidt tot het gewenste eindresultaat"?

Mogelijk probeer je ook iets te hard een machine te laten doen waar een persoon mogelijk beter in is, het gaat namelijk ook over de interpretatie van informatie. Je zou dit werk in principe ook, I don't know, door een stagiair kunnen laten doen ofzo, om maar een dwarsstraat te noemen.