BLEU-score

BLEU-score is een veelgebruikte maatstaf voor het evalueren van de kwaliteit van door machines gegenereerde vertalingen door deze te vergelijken met menselijke referenties aan de hand van n-grams, precisie en breviteitsstraf.

De BLEU-score, of Bilingual Evaluation Understudy, is een cruciale maatstaf voor het evalueren van de kwaliteit van tekst die door machinevertalingssystemen wordt geproduceerd. Ontwikkeld door IBM in 2001, was het een baanbrekende maatstaf die een sterke correlatie toonde met menselijke beoordelingen van vertaalde kwaliteit. De BLEU-score blijft een hoeksteen binnen het domein van natuurlijke taalverwerking (NLP) en wordt uitgebreid gebruikt om machinevertalingssystemen te beoordelen.

In de kern meet de BLEU-score de gelijkenis tussen een door een machine gemaakte vertaling en een of meer menselijke referentievertalingen. Hoe dichter de machinevertaling bij de menselijke referentie ligt, hoe hoger de BLEU-score, die varieert van 0 tot 1. Scores dicht bij 1 duiden op meer gelijkenis, hoewel een perfecte score van 1 zelden voorkomt en kan wijzen op overfitting, wat niet ideaal is.

Belangrijkste componenten van de BLEU-scoreberekening

1. N-grams

N-grams zijn aaneengesloten reeksen van ‘n’ items uit een gegeven tekst of spraakvoorbeeld, meestal woorden. In BLEU worden n-grams gebruikt om machinevertalingen te vergelijken met referentievertalingen. Bijvoorbeeld, in de zin “The cat is on the mat,” zijn de n-grams:

  • 1-gram (unigram): “The,” “cat,” “is,” “on,” “the,” “mat”
  • 2-gram (bigram): “The cat,” “cat is,” “is on,” “on the,” “the mat”
  • 3-gram (trigram): “The cat is,” “cat is on,” “is on the,” “on the mat”
  • 4-gram: “The cat is on,” “cat is on the,” “is on the mat”

BLEU berekent de precisie met deze n-grams om de overlap tussen de kandidaatvertaling en referentievertalingen te beoordelen.

2. Precisie en aangepaste precisie

BLEU definieert precisie als het aandeel n-grams in de kandidaatvertaling die ook voorkomen in de referentievertalingen. Om te voorkomen dat herhaling van n-grams wordt beloond, gebruikt BLEU “aangepaste precisie,” waarbij het aantal van elke n-gram in de kandidaatvertaling wordt beperkt tot het maximale aantal in een van de referentievertalingen.

3. Breviteitsstraf

De breviteitsstraf is cruciaal in BLEU en straft vertalingen die te kort zijn. Kortere vertalingen kunnen hoge precisie behalen door onzekere tekstonderdelen weg te laten. Deze straf wordt berekend op basis van de lengteratio van de kandidaat- en referentievertalingen, zodat vertalingen niet te kort of te lang zijn ten opzichte van de referentie.

4. Meetkundig gemiddelde van precisiescores

BLEU aggregeert precisiescores over verschillende n-gramgroottes (meestal tot 4-grams) met behulp van een meetkundig gemiddelde, zodat er een balans is tussen het vastleggen van zowel lokale als bredere context in de vertaling.

Wiskundig kader

De BLEU-score wordt wiskundig weergegeven als:

[ \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log(p_n)\right) ]

Waarbij:

  • BP de breviteitsstraf is.
  • ( w_n ) het gewicht is voor de n-gramprecisie (meestal ingesteld op 1/n, waarbij n de n-gramgrootte is).
  • ( p_n ) de aangepaste precisie voor n-grams is.

Toepassingen en gebruiksvoorbeelden

Machinevertaling

BLEU wordt voornamelijk gebruikt om machinevertalingssystemen te evalueren en biedt een kwantitatieve maatstaf om verschillende systemen te vergelijken en verbeteringen bij te houden. Het is vooral waardevol in onderzoek en ontwikkeling om de effectiviteit van vertaalmodellen te testen.

NLP-taken

Hoewel oorspronkelijk bedoeld voor vertaling, wordt BLEU ook toegepast op andere NLP-taken zoals tekstsamenvatting en parafraseren, waarbij het de bedoeling is tekst te genereren die lijkt op een menselijke referentie.

AI-automatisering en chatbots

BLEU kan de kwaliteit beoordelen van de antwoorden die door AI-modellen in automatisering en chatbots worden gegenereerd, zodat outputs samenhangend en contextueel passend zijn ten opzichte van menselijke reacties.

Kritiek en beperkingen

Ondanks het brede gebruik heeft BLEU beperkingen:

  • Gebrek aan semantisch begrip: BLEU richt zich op stringovereenkomst, niet op semantische betekenis, wat tot misleidende scores kan leiden als er synoniemen of parafrasering worden gebruikt.
  • Gevoeligheid voor referentievertalingen: BLEU-scores zijn sterk afhankelijk van de kwaliteit en het aantal referentievertalingen; meer referenties leiden doorgaans tot hogere scores door meer overeenkomsten.
  • Misleidend hoge scores: Hoge BLEU-scores komen niet altijd overeen met hoge vertaalkwaliteit, vooral als het systeem is overgefitt op de testset.
  • Negeert woordvolgorde: BLEU straft onjuiste woordvolgorde onvoldoende, wat de betekenis van de zin kan beïnvloeden.

Veelgestelde vragen

Wat is de BLEU-score?

De BLEU-score (Bilingual Evaluation Understudy) is een maatstaf die wordt gebruikt om de kwaliteit van door machines gegenereerde vertalingen te beoordelen door deze te vergelijken met één of meer menselijke referentievertalingen aan de hand van n-gram overlap, precisie, breviteitsstraf en het meetkundig gemiddelde.

Wat zijn de belangrijkste componenten van de BLEU-scoreberekening?

Belangrijke componenten zijn n-grams, aangepaste precisie, breviteitsstraf en het meetkundig gemiddelde van precisiescores over verschillende n-gramgroottes.

Wat zijn de beperkingen van de BLEU-score?

BLEU richt zich op stringovereenkomst en houdt geen rekening met semantische betekenis, is gevoelig voor het aantal en de kwaliteit van referentievertalingen, kan misleidend hoge scores geven voor overgefite systemen, en straft onjuiste woordvolgorde onvoldoende.

Klaar om je eigen AI te bouwen?

Slimme chatbots en AI-tools onder één dak. Verbind intuïtieve blokken om je ideeën om te zetten in geautomatiseerde Flows.

Meer informatie