30 Ago 2018

A/B Test e intervallo di confidenza: risultati che contano

Abbiamo in passato già parlato di A/B test e di come, in *ambito Email Marketing, siano un terreno quanto mai minato.

Spesso ci è stato fatto l'appunto che un test è una prassi scientifica di indubbio valore, e che dunque vale sempre la pena usarlo. Facciamo un esempio pratico: devo fare un invio a 20.000 indirizzi, e ho dubbi sulla "call to action" da utilizzare, per cui decido di fare un A/B test su due gruppi da 2.000 contatti, per poi estendere a tutti l'invio migliore.

Il risultato del test ci dice che la variante A ha avuto 34 clic, mentre la B ha registrato ben 42 clic (2.1%): istintivamente viene da pensare che la versione B sia quella vincente, in realtà, immettendo i dati in questo sito, scopriremo che i risultati ottenuti non sono "statisticamente rilevanti". Cosa significa? Come faccio ad ottenere risultati rilevanti?

Oggi tenteremo di andare un po' più a fondo nella questione, accennando alla teoria che sta dietro al concetto di test, per capire quali siano i limiti e i punti di forza di questo modo di operare.

Cos'è un test?

Per test si intende la verifica di una data ipotesi su un campione più o meno ristretto rispetto alla "popolazione" totale; una volta che il test ha dato il risultato aspettato, l'ipotesi si applica all'intera popolazione, aspettandosi risultati in linea con il test.

Abtest

In ambito marketing si parla da anni di A/B testing, specialmente nella realizzazione di landing page e nell'ottimizzazione di banner e campagne advertising.

Questo approccio, fortemente sostenuto dai profeti del marketing scientifico, si contrappone in maniera anche estremamente polemica, a quello "estetico", basato sulle intuizioni e sul lavoro creativo.

Se è vero che il web ci consente una misurabilità degli eventi prima impensabile, è anche vero che i dati vanno interpretati correttamente, altrimenti rischiamo di rincorrere miraggi meno consistenti dell'intuizione del creativo di turno.

Errore statistico e intervallo di confidenza

Parlando di Email Marketing, fare un test significa effettuare uno o più invii ad una porzione del database, verificare se i risultati in termini di aperture, clic o conversioni siano quelli sperati ed in seguito, rassicurati, estendere l'invio (o il migliore fra i test) a tutto il database.

Partiamo dall'assunto che l'unico test che ci possa dare la certezza del risultato è quello effettuato sull'intero database.

Prendere una porzione del database significa automaticamente accettare che il test stesso abbia solo una certa confidenza probabilistica, per cui ci si assume il rischio che il risultato non sia corretto e che dunque l'estensione del test a tutto il database possa avere effetti diversi.

In sostanza devo strutturare il test per riuscire a limitare questo rischio, facendo in modo che il test stesso possa risultare il più "affidabile" possibile: più affidabile sarà il test, maggiore sarà "il costo" per farlo.

Normalmente ci si accontenta - a meno di casi particolarmente importanti e sensibili - di una affidabilità statistica del 95%.

Questo significa che il test che andrò ad effettuare avrà il 95% di probabilità di essere significativo e dunque di rappresentare -entro il margine d'errore- il comportamento finale di tutta la lista.

Ampiezza del campione e margine d'errore

Facciamo un esempio pratico: immaginiamo di aver effettuato un invio di prova con un intervallo di confidenza del 95% e di avere avuto una percentuale di clic del 3%, con un margine d'errore dello 0.2%.

In pratica questi numeri ci dicono che se estendessimo l'invio a tutto il database, avremmo il 95% di possibilità di ottenere un CTR fra il 2.8% e il 3.2%.

Il margine d'errore gioca dunque un ruolo essenziale insieme all'intervallo di confidenza.

Questo numero dipende fondamentalmente dal numero di risposte valutabili: più il campione di riferimento è significativo e dunque più risposte avremo e più la forchetta d'errore si restringe.

Volendo effettuare un test semplice, a verifica di una ipotesi, quindi non confrontativo, dovremo capire, a partire dal risultato aspettato, dal margine d'errore accettabile e dalla confidenza ricercata, quale sia il dimensionamento minimo del campione utile per la prova.

Questa è la formula base che ci consente il calcolo in questione:

$$n= {z^2p(1-p) \over E^2}$$

Dove

  • n = dimensione del campione
  • E = massimo errore che ci vogliamo concedere
  • p = risultato che ci aspettiamo (in termini percentuali, espressi fra 0 e 1)
  • z = coefficiente dell'intervallo di confidenza. Questo coefficiente vale 1.645 per il 90%, 1,96 per il 95% e 2,575 per il 99%.

In termini pratici, se volessimo testare un invio, per il quale ci attendiamo l'1.9% di clic, con uno scarto di massimo di 0.1% e un intervallo di confidenza del test del 95%, la formula sarebbe:

$$n= {1,96^2(0,019)(1-0,019) \over 0,001^2}$$

Quindi n=71.603 destinatari a cui inviare l'email di prova per verificare l'ipotesi (con ragionevole confidenza).

Appare fin da subito chiaro che i numeri con i quali bisogna lavorare sono piuttosto alti, scendere sotto questi numeri significa davvero lanciare una moneta e sperare che tutto vada bene.

Per giustificare un test (o più test) fatti su un campione simile, dovremmo avere un database davvero cospicuo, almeno quattro/cinque volte il numero di destinatari del test, cosa davvero rara di questi tempi.

A/B Test, the right way

Al solito consapevolezza e buon senso sono le nostre parole d'ordine.

Finora abbiamo visto la formula necessaria a identificare l'entità del campione in caso di test "secco", senza alternative.

Se volessimo confrontare invece due ipotesi, e scegliere la migliore, come dovremmo comportarci?

In questo caso dovremmo fare una ipotesi sullo scarto fra i risultati che ci attendiamo e capire di conseguenza quale volume sia necessario per fare in modo che questa distanza sia giudicata significativa.

In sostanza più la distanza fra i due risultati è piccola, più è necessario che il volume del campione sia ampio, altrimenti rischiamo di uscire dall'intervallo di confidenza e avere risultati statisticamente non rilevanti.

La formula rivista è questa:

$$n1 = n2 = {z^2[p1(1-p1)+p2(1-p2)] \over (p1-p2)^2}$$

Dove p1 e p2 sono i due risultati attesi per i due test.

Ipotizziamo di voler effettuare una prova fra due call to action per le quali ci aspettiamo in un caso un risultato attorno 1.5% e nell'altro 1.9%.

$$n1 = n2 = {1.96^2[0.015(1-0.015)+0.019(1-0.019)] \over (0.004^2)}$$

In questo caso n1 ed n2 si attestano attorno agli 8.000 contatti l'una.

Quindi il campione totale è stimabile sui 16.000 contatti, ancora una volta un volume sicuramente significativo.

In questo A/B test, su 8000 utenti, ci aspettiamo 120 clic in un caso, 152 nell'altro.

La differenza è del 26.67%, davvero cospicua. Considerate che per lo stesso volume, scendendo attorno al 21% di differenza, il test non è più significativo.

Non preoccupatevi troppo delle formule: esistono strumenti online, anche piuttosto completi, come questo; indubbiamente è però utile capire almeno alcuni dei meccanismi sottesi, molto spesso controintuitivi.

Oltre i numeri, alcune considerazioni

L'a/b test è uno strumento estremamente potente e utile, ma che ha un preciso campo d'azione.

È indispensabile ad esempio per l'ottimizzazione di landing page, oppure di advertising online: in questo caso l'utenza che prendiamo in considerazione è effettivamente una massa anonima di cui conosciamo molto poco e le operazioni di testing sono in grado di darci informazioni importanti.

In questo caso non dobbiamo preoccuparci, ad esempio, che il campione sia scelto in maniera effettivamente casuale: se proseguiamo il nostro test per un tempo sufficiente, raccogliendo, come abbiamo visto, un numero congruo di interazioni, avremo il risultato ricercato.

Nel caso dell'email marketing questi meccanismi mostrano il fiato corto: il nostro database non è assolutamente una massa indistinta, è fatto di persone che hanno una storia nei confronti dei nostri invii.

C'è chi infatti ha interagito aprendo e cliccando assiduamente, chi invece apre una email ogni 10, chi non apre affatto, chi ha mostrato interesse per certi argomenti, chi invece per altri.

Nella scelta del campione, dovremmo tenere conto di questa varietà, di cui siamo perfettamente a conoscenza, e rendere il campione il più variato possibile.

Altro dato fondamentale è la performance che stiamo tentando di migliorare. Se, come abbiamo visto, si tratta dei clic, difficilmente andremo sopra a valori fra il 2% e il 3%, per cui, per essere significativo, il test dovrà necessariamente coinvolgere migliaia di utenti.

Chiaramente se volessimo invece migliorare le aperture, il costo del test sarebbe indubbiamente minore, ma le aperture tendono ad essere una metrica piuttosto effimera e di poco conto, quando addirittura non trae in inganno.

Altro particolare di non poco conto è la questione relativa ai tempi dell'a/b test: se si vogliono misurare i clic, è importante che il tempo lasciato al test sia almeno di qualche giorno.

Esiste infatti anche l'effetto di "Regressione alla media": mai giudicare un test troppo in fretta, nella maggior parte dei casi, dopo un primo momento in cui pare emergere nettamente un vincitore, il divario mano a mano si colma, fino a rischiare di entrare nella zona in cui il risultato diventa statisticamente irrilevante.

Segmentazione e analisi al posto dei test

Come dicevamo nell'email marketing, quello fatto bene, non ci rivolgiamo ad una massa informa di lead o utenti casuali.

Abbiamo una fonte di dati importante, gli invii già effettuati, la data di iscrizione, la fonte dell'iscrizione stessa: sono tutti elementi che possono darci una quantità di informazioni davvero rilevante.

Queste informazioni vanno usate per segmentare, dunque dividere in gruppi più piccoli e omogenei, il database: ciò ci consente di pensare comunicazioni ad hoc, personalizzate in base ad una relazione già costruita con l'utente.

Chiaramente la segmentazione ci porta a lavorare su comunicazioni che riguardano gruppi più piccoli, alle volte significativamente più piccoli, per i quali pensare AB test che abbiano una rilevanza statistica è praticamente impossibile.

Quindi, come abbiamo già in passato argomentato, il lavoro sui dati esistenti e sulla segmentazione è, nel caso dell'email marketing, di gran lunga più efficiente ed efficace di qualsiasi test: se abbiamo un dubbio fra due "call to action" per un pubblico che conosciamo bene e che abbiamo segmentato adeguatamente, difficilmente la differenza fra i ritorni fra le due ipotesi potrà essere statisticamente significativa, volessimo fare un test.

In caso contrario, evidentemente, dovremmo aver sbagliato qualcosa nell'analisi dei dati precedenti o nell'impostazione del segmento (o più probabilmente nel test stesso).

Aggiungi un commento

Cliccando su "Salva" accetti che i tuoi dati siano registrati con l'unico scopo di pubblicazione e gestione dei commenti (Leggi l'informativa completa)