Antispam in Evolution con Bogofilter

Da Guide@Debianizzati.Org.
Vai alla navigazione Vai alla ricerca
Debian-swirl.png Versioni Compatibili

Tutte le versioni supportate di Debian

Introduzione

In questa guida spiegherò come sostituire il filtro anti-spam di Evolution (che usa Spamassassin) con un filtro molto più veloce (in quanto bayesiano): Bogofilter. Usando Evolution ho notato che il filtro anti-spam che richiede l'uso di Spamassassin è molto lento soprattutto inserendo i controlli esterni (ovvero ogni mail viene confrontata con una lista di mail-spam note). Vi sarà capitato forse anche di usare Thunderbird che include un filtro anti-spam bayesiano (è un tecnica statistica) e di notare che questo tipo di filtro è molto più veloce ed ugualmente accurato (non so in termini assoluti quale sia il migliore ma per usi SOHO entrambi sono ampiamente soddisfacenti).

È possibile usare un filtro bayesiano anche con Evolution, con conseguente aumento della velocità. A tal scopo basta usare Bogofilter, un filtro anti-spam bayesiano da linea di comando. Per i più smaliziati descriverò sinteticamente il procedimento, gli altri troveranno informazioni più dettagliate nel seguito. In pratica basta usare la funzionalità di Evolution di creare filtri che come condizione di verifica discriminano il valore di ritorno di un programma al quale è stata mandata in pipe l'email. È molto più semplice di quello che sembra in realtà. Il vantaggio di velocità è notevole anche perché si possono filtrare prima tutte le mail delle mailing list e mandare al filtro anti-spam solo le altre email. Lo svantaggio è che, usando una tecnica statistica, bisogna inizialmente "istruire" Bogofilter a riconoscere lo spam, ma la cosa non presenta problemi se si dispone già di alcune decine di email di spam.


Usare Bogofilter sulle mailbox di Evolution

Evolution mette le mail in /home/$USER/.evolution/mail/local/, un file (in formato mbox) per ogni cartella che abbiamo in Evolution. Le email della cartella "Posta in arrivo" compreso lo spam ("da Cestinare") si trovano tutte nel file Inbox: Evolution aggiunge infatti un header che gli permette di distinguere lo spam dall'ham (prosciutto in inglese: tutto ciò che non è spam). Ora, per istruire Bogofilter è molto più comodo di disporre dello spam in un file separato. A tal scopo apriamo Evolution e spostiamo tutta la posta in "Da cestinare" in una nuova cartella che chiameremo fantasiosamente Spam. A questo punto non dimenticarsi di svuotare la cartella "Posta Indesiderata" e poi quella "da Cestinare".

Per istruire ora Bogofilter su cosa sia spam, scriveremo in un terminale dalla cartella /home/$USER/.evolution/mail/local/:

    $ cat Spam | bogofilter -M -s


dove "Spam" è la cartella di Evolution (qui file mbox) in cui abbiamo spostato lo spam. Se per errore abbiamo indicato come spam un file di mail "pulite" possiamo annullare l'operazione con lo stesso comando sostituendo -S al posto di -s.

Per indicare quali mail non sono spam scriveremo invece:

    $ cat Inbox | bogofilter -M -n


Potremo ripetere il precedente comando anche per gli altri file corrispondenti a posta "pulita". Ad esempio, io l'ho anche eseguito sugli altri file che contenevano i messaggi delle mailing list a cui sono iscritto. Se abbiamo indicato come mail "pulite" un file contenente spam, possiamo annullare l'operazione con lo stesso comando sostituendo -N al posto di -n.

Per vedere quanto adesso sia chiara a Bogofilter la differenza tra spam e ham possiamo visualizzare un diagramma con il comando (dalla home):

    $ bogoutil -H ~/.bogofilter/wordlist.db


dovremmo vedere un istogramma con due massimi nettamente distinti, questo vuol dire che a Bogofilter è abbastanza chiara la differenza tra spam e ham. Ad esempio, ecco come appare il mio istogramma, dopo aver inserito alcune centinaia di email come ham e una ottantina di mail come spam:

    Histogram
    score   count  pct  histogram
    0.00    59199 81.65 ################################################
    0.05      178  0.25 #
    0.10      114  0.16 #
    0.15      114  0.16 #
    0.20      139  0.19 #
    0.25      159  0.22 #
    0.30      139  0.19 #
    0.35      147  0.20 #
    0.40      160  0.22 #
    0.45      201  0.28 #
    0.50      151  0.21 #
    0.55      187  0.26 #
    0.60      150  0.21 #
    0.65      155  0.21 #
    0.70      243  0.34 #
    0.75      227  0.31 #
    0.80      251  0.35 #
    0.85      324  0.45 #
    0.90      356  0.49 #
    0.95     9905 13.66 #########
    tot     72499
    hapaxes:  ham   30363 (41.88%), spam       2 ( 0.00%)
       pure:  ham   59036 (81.43%), spam    9161 (12.64%)

È importante che l'istogramma che ne risulta sia molto simile a questo: cioè con 2 picchi separati e distinti (uno su 0.00 e l'altro su 0.95). Se abbiamo giocato troppo con i comandi per l'addestramento può darsi che il risultato sia diverso. Allora si consiglia di prendere il file wordlist.db (che si trova in /home/$USER/.bogofilter) cancellarlo e crearne uno nuovo con lo stesso nome. Non serve a nulla disinstallare i pacchetti del programma per poi reinstallarli. Ovviamente il nuovo file sarà vuoto e necessiterà un'altra volta dell'addestramento. Se l'istogramma è simile a quello mostrato allora possiamo dare in pipe una mail di prova "messaggio" che salviamo da qualche parte:

    $ cat messaggio | bogofilter


Se il valore di ritorno (echo $?) è 0 la mail sarà spam, se è 1 sarà ham, se è 2 Bogofilter è incerto.

Da qui si capisce come sia possibile costruire un piccolo script al quale mandare in pasto (in pipe, tecnicamente) le nostre mail e, a seconda del valore di ritorno, Evolution sposterà o meno il messaggio nella cartella dello Spam. Un esempio è il seguente:

    #!/bin/sh
    # antispam - Wrapper per bogofilter
    #
    # Dare in pipe a questo script l'email da controllare
    # Ritorna:
    #   0   per lo spam
    #   1   per l'ham
    #   2   se il messaggio e' incerto
    #

    SPAMBOX="/home/$USER/.evolution/mail/local/Spam"
    HAMBOX="/home/$USER/.evolution/mail/local/Inbox"

    # Commentare se non si vuole istruire bogofilter sullo spam ogni volta
    # che si scarica la posta
    cat $SPAMBOX | bogofilter -M -s 
    
    # Commentare se non si vuole istruire bogofilter sull'ham ogni volta
    # che si scarica la posta
    cat $HAMBOX | bogofilter -M -n 

    
    # Controlla il messaggio dato in pipe (legge lo stdin)
    bogofilter

    # Valore di ritorno
    RESULT=$?

    echo $RESULT
    exit $RESULT


Potete, ad esempio, salvare lo script precedente col nome antispam, copiarlo nel PATH (ad es. /usr/local/bin/) e renderlo eseguibile (chmod +x antispam). Ogni volta che viene mandato in pipe una email a questo script, Bogofilter viene aggiornato su cosa è spam e su cosa no e poi ci dirà se il messaggio passato è spam o meno.

Configurare Evolution per l'uso di Bogofilter

Non ci resta ora che configurare Evolution. Disabilitiamo innanzi tutto il filtro antispam integrato di Evolution. Si trova in "Modifica/Preferenze/Preferenze di posta/Indesiderata". Poi creiamo un nuovo filtro per la posta in entrata. Come condizione di verifica del filtro (riquadro Se) mettiamo "In pipe a programma", come nome del programma il nome dello script (/usr/local/antispam) e come valore di ritorno 0. Ora basterà aggiungere l'azione da compiere (riquadro allora) che sarà ovviamente "Sposta nella cartella" Spam.

Ultimo consiglio che do è quello di inserire il filtro antispam alla fine della lista filtri (se ne avete altri), spostandolo in basso. Inserendo poi negli altri filtri come azione oltre a "Sposta nella cartella" anche "Arresta l'elaborazione" in modo che se il messaggio corrisponde al filtro non verrà più processato dai filtri successivi. In questo modo arriveranno a Bogofilter molti meno messaggi e l'elaborazione sarà ancora più veloce. Io uso questo metodo perché non arriva spam alle mailng list a cui sono iscritto. Se vi arrivasse spam anche dalle mailing list, potete non usarlo e fare filtrare tutto a Bogofilter.

Conclusioni

Concludo dicendo che questa è solo una delle implementazioni possibili. Ad esempio, per velocizzare ulteriormente il controllo antispam si possono commentare i cat nello script, e poi di tanto in tanto aggiornare a mano Bogofilter su cosa è spam e cosa è ham. Oppure si può usare questo procedimento con una altro programma di posta (MUA) diverso da Evolution. Le possibilità sono infinite. Spero di essere riuscito a spiegare la logica delle cose (piuttosto che aver dato una soluzione bell'e pronta) in modo che ognuno di voi possa adattare quanto detto per rispondere alle proprie esigenze, e anche (perché no) al proprio capriccio. E, in fondo, non è proprio questo il bello di usare software libero?

Happy hacking!


Autore: ~ The_Noise