15 Mag 2016

I filtri antispam "collaborativi": Cloudmark

Fra i vari filtri antispam utilizzati oggigiorno un posto di rilievo, per estensione d'uso e per le peculiarità di funzionamento, lo merita sicuramente Cloudmark.
Cloudmark è una grande realtà commerciale che fornisce prodotti per la sicurezza e per la "pulizia" delle comunicazioni elettroniche, sia email, sia sms.

Le soluzioni proposte sono svariate, dedicate sia all'utenza finale, sia - anzi, soprattutto - alle aziende e agli ISP (Internet Service Provider): ad esempio in Italia Cloudmark viene utilizzato da Libero, Tiscali, Aruba e Fastwebnet.

L'idea fondamentale del servizio Cloudmark è quella di un filtro collaborativo, che basa la classificazione delle email in relazione ai feedback inviati da chi ha ricevuto l'email; in questa maniera, evitando dunque qualsiasi tipo di automatismo, si demanda la decisione ai diretti interessati.

Cloudmark

L'email arrivata sembra spam ad un certo numero di utenti? Allora è spam.

Posta in questi termini la questione pare piuttosto semplice, in realtà la tecnologia impiegata è complessa; in questo breve excursus tenteremo di capire i principi di funzionamento dietro a questo filtro e come tali principi possano influenzare il nostro modo di gestire le liste e creare newsletter.

Cloudmark Authority nasce come "versione commerciale" di un progetto open source chiamato Vipul's Razor, scritto da Vipul Ved Prakash, poi cofondatore della stessa Cloudmark. 

Il primo problema che Vipul ha affrontato quando ha cominciato a pensare il suo filtro è stato quello del costo dell'analisi integrale di ogni messaggio in ingresso: la soluzione è stata quella di creare un software capace di individuare ed estrarre, in maniera rapida ed efficace, parti significative dell'email - indirizzi email, piccole porzioni di testo, mittente, link... - e codificarle in "impronte digitali" compatte (Cloudmark's fingerprint).

Una volta che il filtro ha estrapolato le impronte dell'email in ingresso, il sistema verifica che ognuna di queste impronte digitali non sia contenuta nel database delle impronte "blacklistate" come portatrici di spam (Cloudmark Authority Fingerprint Cache): se anche solo una di queste impronte viene riconosciuta come sospetta, l'email stessa viene trattata come email di spam - e quindi, a seconda delle politiche dell'ISP, consegnata con l'oggetto cambiato, relegata nella cartella apposita, oppure direttamente rigettata (in tempo reale o tramite successivo bounce).

L'uso di queste impronte digitali consente di mantenere estremamente "agile" il database di confronto e di velocizzare le operazioni di ricerca. Ogni "cliente" di CloudMark riceve costantemente ed in tempo reale gli aggiornamenti del database che include l'elenco delle impronte digitali "incriminate" e il controllo può avvenire quindi localmente senza dispendiose (e più critiche) verifiche remote.

Il processo di estrazione delle "impronte digitali" è uno dei meccanismi chiave di Cloudmark ed è, chiaramente, segreto: per esperienza sappiamo che praticamente tutti gli indirizzi internet - anche solo citati, non necessariamente linkati - vengono trasformati in impronte digitali e dunque sono oggetto di screening. Pur non essendo gli unici elementi presi in considerazione, stanno assumendo un peso sempre più rilevante nell'analisi delle email da parte di Cloudmark.

Per ogni email vengono comunque estratte un numero variabile di impronte, dalle poche unità a parecchie decine, anche centinaia, che insieme formano una vera e propria carta d'identità della missiva.

Una volta individuate le impronte digitali, il confronto con il database delle impronte "cattive" è estremamente rapido; qui interviene il secondo punto chiave del filtro, il vero cuore di tutto il sistema.

Come viene popolato il database delle impronte digitali "cattive"?

L'idea fondamentale dietro al filtro ideato da Vipul è che una email di spam può essere unicamente riconosciuta come tale da chi la riceve.

Ricordiamo infatti che per Spam si intende una comunicazione non richiesta e a cui non si era dato alcun consenso; inizialmente per arginare questo fenomeno si lavorava principalmente sui contenuti, tentando di trovare pattern significativi comuni alle email Spam.

I limiti di questi metodi sono evidenti: per quanto possa sembrare che sia una buona idea filtrare email che contengano parole come "Viagra" oppure "Porn", in realtà possono esistere - ed esistono - molte email lecite e dotate degli opportuni consensi che le usano.

Partendo dall'idea base che solo chi riceve l'email può decidere se sia spam o meno, Cloudmark Authority lavora principalmente sulle segnalazioni da parte di chi utilizza il filtro: tutte le volte che un utente Cloudmark mette in spam una email, il filtro estrae tutte le impronte digitali dell'email e le invia al server centrale identificandole come "sospette".

Il server Cloudmark delle impronte sospette viene chiamato "Nomination Server", e tutte le impronte digitali segnalate finiscono qui, in attesa di "giudizio".

Una volta raggiunto un certo limite di segnalazioni - su questo limite c'è molto segreto ed è forse una delle parte più fallaci del sistema - le impronte vengono giudicate, non prima però di verificare l'affidabilità di chi le ha segnalate.

Essendo infatti un sistema sostanzialmente, ci si passi il termine, "delatorio", è fondamentale che la rete di segnalatori mantenga una reputazione alta, altrimenti l'intero filtro sarebbe messo sotto scacco dagli abusi dei segnalatori.

Quindi, prima di spostare l'impronta nel "Catalog server", il server che contiene il database delle chiavi "Cattive" e che poi sarà replicato da tutti i servizi Cloudmark, si verifica che i segnalatori abbiano una affidabilità alta - ovviamente il metro di questo rating è segreto, ma, stando a quanto dichiara Cloudmark, si basa sulla "vecchiaia" dell'agente, sulla congruenza con le segnalazioni di altri agenti e l'incidenza dei "false positive" nelle segnalazioni passate.

Se gli agenti - o l'agente - coinvolti nella segnalazione passano il check di trust, l'impronta digitale sospetta diventa ufficialmente "cattiva" e passa al server Catalogo, per essere poi distribuita in tutta la rete di installazioni Cloudmark, che siano singoli utenti o provider.

E se non fosse proprio spam?

Cloudmark, al netto delle dichiarazioni roboanti, ha un sistema per la gestione dei "False positive", quindi di quelle impronte digitali che, seppur indicate come "cattive", si rivelano alla prova dei fatti come "buone", quindi non portatrici di Spam.

Stando alle stesse dichiarazioni di Cloudmark, in questa categoria si ritrovano spesso gli invii massivi, Newsletter e Dem, che, per quanto ben gestiti e curati, possono generare segnalazioni di abuso e quindi blacklisting da parte di Cloudmark.

Per gestire questo tipo di problematiche, Cloudmark raccoglie anche feedback "positivi": da quel che si capisce dai documenti ufficiali, se qualcuno "ripesca" dalla cartella spam un messaggio e lo porta in posta in arrivo, l'azione viene registrata da Cloudmark, che poi farà - in automatico - le valutazioni del caso.

Appare chiaro che, in linea teorica, l'azione di recupero di un messaggio dalla cartella spam è oltremodo rara - e vedremo nel caso italiano di alcuni provider, impossibile, per cui è evidente che una impronta digitale "cattiva" ha davvero poche chance per redimersi.

Nel prossimo articolo condivideremo alcune riflessioni sul come evitare blacklisting sulle impronte digitali Cloudmark, soprattutto in considerazione del comportamento dei provider italiani che lo usano.

 

Aggiungi un commento

Filtered HTML

  • Indirizzi web o e-mail vengono trasformati in link automaticamente
  • Elementi HTML permessi: <a> <em> <strong> <cite> <blockquote> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Linee e paragrafi vanno a capo automaticamente.

Plain text

  • Nessun tag HTML consentito.
  • Indirizzi web o e-mail vengono trasformati in link automaticamente
  • Linee e paragrafi vanno a capo automaticamente.