Vertrouwen Toevoegen aan Large‑Language‑Model Classificeerders

Large Language Models (LLMs) zijn verbazingwekkend goed in zero‑shot en few‑shot classificatie: van het markeren van toxische opmerkingen tot het routeren van support‑tickets. Toch is de eerste vraag die onze klanten stellen na de demo: "Hoe zeker is het model?"

In gereguleerde, klantgerichte of hoog‑risico domeinen is een ruw label niet genoeg-u heeft een waarschijnlijkheid nodig die u in een risicomatrix, een QA‑workflow of een dashboard kunt plaatsen. Hieronder laten we zien hoe u de signalen die in elke LLM verborgen zitten kunt omzetten in goed gekalibreerde vertrouwensscores waar uw bedrijf op kan vertrouwen.

Confidence Measures Diagram

1 De inzet: waarom vertrouwen belangrijk is

Stel u voor: een douane‑afhandeling‑workflow die goederenbeschrijvingen automatisch classificeert. Een 90%‑zekere misclassificatie triggert een handmatige review; een 99%‑zekere gaat er soepel doorheen. Zonder gekalibreerde waarschijnlijkheden overspoelt u mensen met valse alarmen of, erger nog, laat u kostbare fouten door. Vertrouwensscores veranderen 'black‑box magie' in een controleerbaar onderdeel van uw beslissingspijplijn.

2 Waar komen vertrouwenssignalen vandaan?

Token log‑waarschijnlijkheden. De meeste model‑API's (OpenAI, Anthropic, Mistral, llama‑cpp, …) retourneren logprobs als u de vlag zet. Aggregeer de waarschijnlijkheidsmassa toegewezen aan elke klasse‑token-dat is uw ruwe score.

Zelf‑gerapporteerde waarschijnlijkheden. U kunt simpelweg vragen: "Geef het label en een waarschijnlijkheid tussen 0 en 1." Het model zal gehoorzamen-verrassend goed, maar meestal overmoedig.

Self‑consistency sampling. Prompt het model opnieuw of sample het meerdere keren. Als de antwoorden verschillen, behandel het als onzekerheid (zie SelfCheckGPT).

Ensembles & MC‑dropout. Klassieke model‑onzekerheid‑trucs werken nog steeds: run meerdere checkpoints of schakel dropout in bij inferentie om een verdeling van logits te krijgen.

3 Van ruwe scores naar betrouwbare cijfers: kalibratie 101

LLMs zijn meestal verkeerd gekalibreerd uit de doos (de 80%‑vertrouwen‑bucket kan maar 60% van de tijd gelijk hebben). Post‑hoc kalibratie lost dit op:

Temperatuur/Platt schaling – leer één scalaire T op een validatieset; deel logits door T.
Isotonische regressie – een niet‑parametrische monotone mapping voor multi‑klasse taken.
Prompt‑agreement kalibratie – gemiddelde log‑probs over diverse templates.
Bayesiaanse binning of ensemble temperatuur schaling – best voor veiligheidskritieke domeinen.

Evalueer met Expected Calibration Error (ECE) of Brier score; streef naar ECE < 2% op uitgehouden data.

4 Hands‑on: Een zero‑shot spam classificeerder kalibreren

Het onderstaande fragment toont de essentie:

import openai, numpy as np, json, math

LABELS = { "A": "spam", "B": "not spam" }

def classify(text, T=1.0):
   prompt = f"Classificeer de volgende tekst als A) spam of B) geen spam.\nTEKST: {text}\nAntwoord met één letter."
   resp = openai.ChatCompletion.create(
       model="gpt-4o-mini",
       messages=[{ "role": "user", "content": prompt }],
       logprobs=True,
       top_logprobs=5,
       temperature=0
   )
   # pak de logprob voor het eerste token (A of B)
   first_tok = resp.choices[0].logprobs.content[0]
   logps = resp.choices[0].logprobs.token_logprobs[0]
   # converteer naar dict {token: p}
   probs = {tok: math.exp(lp / T) for tok, lp in zip(first_tok, logps) if tok in LABELS}
   Z = sum(probs.values())
   probs = {LABELS[tok]: p/Z for tok, p in probs.items()}
   return max(probs, key=probs.get), probs

Wat er gebeurt:

We vragen logprobs aan van de API.
Converteer ze naar lineaire ruimte en temperatuur‑schaal.
Normaliseer en retourneer een nette {label: waarschijnlijkheid} woordenboek.

Verzamel ~200 gelabelde voorbeelden, fit T op een uitgehouden split (minimaliseer negatieve log‑likelihood), en u heeft gekalibreerde spam‑waarschijnlijkheden die u kunt drempelen in productie.

5 Veelvoorkomende valkuilen

Kleine kalibratie‑sets. Onder ~100 voorbeelden domineert de variantie; bootstrap‑gemiddelde ECE om het bij te houden.

Distributieverschuiving. Hercontroleer kalibratie wanneer databronnen of prompt‑templates veranderen.

Overmoedigheid van few‑shot priming. Extra voorbeelden verbeteren nauwkeurigheid maar maken kalibratie vaak slechter-fit T opnieuw wanneer u de prompt aanpast.

6 Wanneer log‑probs niet beschikbaar zijn

Als uw provider token‑waarschijnlijkheden verbergt, val terug op zelf‑gerapporteerd vertrouwen of self‑consistency sampling. Beide correleren met nauwkeurigheid; beide profiteren van dezelfde kalibratie‑trucs.

7 Belangrijkste punten

Vertrouwensscores verbergen zich al in uw LLM-extraheer en kalibreer ze.
Temperatuur‑schaling is een 10‑regel, hoge‑ROI oplossing.
Houd altijd ECE/Brier bij op verse data.
Texterous kan gekalibreerd LLM‑vertrouwen integreren in uw bestaande pijplijnen-neem contact met ons op om uw use case te bespreken.

Verder lezen

Desai & Durrett (2020) Calibration of Pre‑trained Transformers
Jiang et al. (2023) Self‑Check: Detecting LLM Hallucination via Argument Consistency
Minderer et al. (2023) Improved Techniques for Training Calibrated Language Models

Vertrouwen Toevoegen aan Large‑Language‑Model Classificeerders

Vertrouwen Toevoegen aan Large‑Language‑Model Classificeerders

1 De inzet: waarom vertrouwen belangrijk is

2 Waar komen vertrouwenssignalen vandaan?

3 Van ruwe scores naar betrouwbare cijfers: kalibratie 101

4 Hands‑on: Een zero‑shot spam classificeerder kalibreren

5 Veelvoorkomende valkuilen

6 Wanneer log‑probs niet beschikbaar zijn

7 Belangrijkste punten

Verder lezen

Tags