Antispam in Evolution con Bogofilter: differenze tra le versioni

Da Guide@Debianizzati.Org.
Vai alla navigazione Vai alla ricerca
Nessun oggetto della modifica
mNessun oggetto della modifica
 
(15 versioni intermedie di 6 utenti non mostrate)
Riga 1: Riga 1:
{{debianized}}
{{Versioni compatibili|Squeeze|Wheezy}}


==Introduzione==
==Introduzione==
In questa guida spiegherò come sostituire il filtro anti-spam di Evolution (che usa Spamassassin) con un filtro molto più veloce (in quanto bayesiano): Bogofilter.
Usando Evolution ho notato che il filtro anti-spam che richiede l'uso di Spamassassin è molto lento soprattutto inserendo i controlli esterni (ovvero ogni mail viene confrontata con una lista di mail-spam note). Vi sarà capitato forse anche di usare Thunderbird che include un filtro anti-spam bayesiano (è un tecnica statistica) e di notare che questo tipo di filtro è molto più veloce ed ugualmente accurato (non so in termini assoluti quale sia il migliore ma per usi SOHO entrambi sono ampiamente soddisfacenti).


Dopo  qualche mese di utilizzo di una linux box, spesso si notano dei sostanziali rallentamenti...
È possibile usare un filtro bayesiano anche con Evolution, con conseguente aumento della velocità. A tal scopo basta usare Bogofilter, un filtro anti-spam bayesiano da linea di comando. Per i più smaliziati descriverò sinteticamente il procedimento, gli altri troveranno informazioni più dettagliate nel seguito. In pratica basta usare la funzionalità di Evolution di creare filtri che come condizione di verifica discriminano il valore di ritorno di un programma al quale è stata mandata in pipe l'email. È molto più semplice di quello che sembra in realtà. Il vantaggio di velocità è notevole anche perché si possono filtrare prima tutte le mail delle mailing list e mandare al filtro anti-spam solo le altre email. Lo svantaggio è che, usando una tecnica statistica, bisogna inizialmente "istruire" Bogofilter a riconoscere lo spam, ma la cosa non presenta problemi se si dispone già di alcune decine di email di spam.
Magari abbiamo passato questi periodi installando e disintallando applicazioni, provando programmi e configurazioni...ed il sistema risente un po' di queste 'esperienze'...
In questo HowTo vedremo di analizzare una soluzione molto comoda (sicuramente molto di pi� di quella classica di formattare e ricominciare da capo) per rimettere in sesto la nostra amata Debian.


==Prevenire � meglio che curare==
==Usare Bogofilter sulle mailbox di Evolution==
Evolution mette le mail in <code>/home/$USER/.evolution/mail/local/</code>, un file (in formato mbox) per ogni cartella che abbiamo in Evolution. Le email della cartella "Posta in arrivo" compreso lo spam ("da Cestinare") si trovano tutte nel file Inbox: Evolution aggiunge infatti un header che gli permette di distinguere lo spam dall'ham (prosciutto in inglese: tutto ciò che non è spam). Ora, per istruire Bogofilter è molto più comodo di disporre dello spam in un file separato. A tal scopo apriamo Evolution e spostiamo tutta la posta in "Da cestinare" in una nuova cartella che chiameremo fantasiosamente Spam.
A questo punto non dimenticarsi di svuotare la cartella "Posta Indesiderata" e poi quella "da Cestinare".


Penso che sia una cosa certa, poter lavorare su un sistema 'pulito' e 'pulibile' � sicuramente pi� comodo e divertente che su uno 'sporco' e mal gestito, soprattutto quando si tratta di pulizia o di interventi sul sistema!
Per istruire ora Bogofilter su cosa sia spam, scriveremo in un terminale dalla cartella <code>/home/$USER/.evolution/mail/local/</code>:


Iniziamo con la rassegna di applicazioni utili:
==CheckInstall: deb da sorgenti==
Checkinstall una utilit che permette di creare dei pacchetti Debian partendo da sorgenti...
Attenzione, per: non sono pacchetti completi, ma semplicemente aiutano a tenere traccia dei file installati dal programma, facilitando l'aggiornamento e la rimozione dello stesso.
Iniziamo con l'installazione:
<pre>
# apt-get install checkinstall
</pre>
L'utilizzo molto semplice ed intuitivo: la configurazione dei sorgenti (./configure --some-options) e la compilazione (make) devono venir svolte, mentre il comando
<pre>
# make install
</pre>
deve essere sostituito da
<pre>
<pre>
# checkinstall
    $ cat Spam | bogofilter -M -s
</pre>
</pre>




Ed il gioco � fatto!
dove "Spam" è la cartella di Evolution (qui file mbox) in cui abbiamo spostato lo spam. Se per errore abbiamo indicato come spam un file di mail "pulite" possiamo annullare l'operazione con lo stesso comando sostituendo -S al posto di -s.
Durante l'esecuzione del programma verranno poste alcune domande, ad esempio il tipo di pacchetto (il programma permette di creare pacchetti deb, rpm, tgz (usati da slackware))!
Sono disponibili, opzionalmente, le seguenti direttive (anche se non mi � mai capitato di doverne fare uso):
 
; -y, --default : Accetta i valori di default (Modalit� non interattiva)
; --pkgname=name : Imposta il nome del pacchetto
; --pkgversion=version : Imposta la versione
; -A, --arch, --pkgarch=arch : Imposta l'architettura
; --pkgrelease=release : Imposta la release version
; --pkggroup=group : Imposta il gruppo a cui il pacchetto deve appartenere (doc, games, net...)
; --pakdir=directory : Dove salvare il pacchetto
; --maintainer=email_addr : Il maintainer del pacchetto
; --dpkgflags=flags : Eventuali flag da passare a dpkg
; --bk : Esegue un Backup dei file che verranno sovrascritti
 
 
Una volta completato il processo, il pacchetto verr� automaticamente installato.
 
{{Box|Nota Bene|Nel file di controllo del pacchetto non vengono segnate eventuali dipendenze, sostituzioni e/o conflitti, in quanto lo scopo di checkinstall � quello di tenere traccia dei file generati, e non di creare un pacchetto Debian ufficiale...
Non ridistribuite il pacchetto cos� creato: � solo per uso personale (per motivazioni uguali a quella precedente)!}}
 


Questa � la premessa per poter avere un sistema pulito, senza file 'orfani' che gironzolano per il sistema...
Per indicare quali mail non sono spam scriveremo invece:


==Debfoster==
<pre>
<pre>
# apt-get install debfoster
    $ cat Inbox | bogofilter -M -n
</pre>
</pre>
Lo scopo di questo programma di mostrare i pacchetti che non sono installati come dipendenze...
Una volta individuato uno di questi pacchetti, ver mostrata una lista con indicati i pacchetti 'bloccati' da questo.
Output d'esempio:
<pre>
libxml-libxml-perl is keeping the following 3 packages installed:
libxml-libxml-common-perl libxml-namespacesupport-perl libxml-sax-perl
Keep libxml-libxml-perl? [Ynpsiuqx?], [H]elp:</pre>
Ora possiamo scegliere cosa fare:
; Y : mantiene il pacchetti installato
; n : Rimuove il pacchetto segnalato
; p : Rimuove il pacchetto segnalato e tutti i pacchetti da lui trattenuti
; s : Salta la domanda
; i : Visualizza informazioni sul pacchetto
; ? : Uguale a '''i'''
; u : Ripropone la domanda precedente
; q : Esce senza apportare alcuna modifica
; x : Esce e rimuove i pacchetti selezionati
; h : Visualizza la guida ai comandi




Che dire...uno strumento veramente potente!
Potremo ripetere il precedente comando anche per gli altri file corrispondenti a posta "pulita". Ad esempio, io l'ho anche eseguito sugli altri file che contenevano i messaggi delle mailing list a cui sono iscritto. Se abbiamo indicato come mail "pulite" un file contenente spam, possiamo annullare l'operazione con lo stesso comando sostituendo -N al posto di -n.


Quando si procede alla pulizia con questo programma, per�, � bene fare attenzione ad alcune cose, che potrebbero generare non pochi problemi:
Per vedere quanto adesso sia chiara a Bogofilter la differenza tra spam e ham possiamo visualizzare un diagramma con il comando (dalla home):
- Tutte le informazioni mostrate non prendono in considerazione eventuali programmi compilati da sorgenti (con il classico make install o anche con checkinstall);
- Leggere con attenzione le librerie elencate come 'bloccate', in quanto qualche volta potrebbe essere indicata, per esempio, una libreria di sviluppo non necessaria all'esecuzione di altri programmi, ma indispensable per la compilazione (libncurses5-dev, ad esempio).


==Deborphan==
<pre>
<pre>
# apt-get install deborphan
    $ bogoutil -H ~/.bogofilter/wordlist.db
</pre>
</pre>


Questo programma, genera una lista di pacchetti 'orfani'.
Per pacchetti 'Orfani' indichiamo quelle librerie che non sono pi necessarie, in quanto nessun pacchetto installato le indica come dipendenza.
Attenzione se si hanno programmi compilati da sorgente (in modo classico o con checkinstall): le dipendenze di quei pacchetti sono saranno controllate, e si potrebbe incorrere in problemi di esecuzione di questi programmi!


Opzione interessante � '''--libdev''', che genera una lista delle librerie di sviluppo (quelle che finiscono con -dev) non necessarie!
dovremmo vedere un istogramma con due massimi nettamente distinti, questo vuol dire che a Bogofilter è abbastanza chiara la differenza tra spam e ham. Ad esempio, ecco come appare il mio istogramma, dopo aver inserito alcune centinaia di email come ham e una ottantina di mail come spam:


Per visualizzare una lista dei pacchetti 'Orfani', sufficiente lanciare il seguente comando:
<pre>
<pre>
# deborphan
    Histogram
    score  count  pct  histogram
    0.00    59199 81.65 ################################################
    0.05      178  0.25 #
    0.10      114  0.16 #
    0.15      114  0.16 #
    0.20      139  0.19 #
    0.25      159  0.22 #
    0.30      139  0.19 #
    0.35      147  0.20 #
    0.40      160  0.22 #
    0.45      201  0.28 #
    0.50      151  0.21 #
    0.55      187  0.26 #
    0.60      150  0.21 #
    0.65      155  0.21 #
    0.70      243  0.34 #
    0.75      227  0.31 #
    0.80      251  0.35 #
    0.85      324  0.45 #
    0.90      356  0.49 #
    0.95    9905 13.66 #########
    tot    72499
    hapaxes:  ham  30363 (41.88%), spam      2 ( 0.00%)
      pure:  ham  59036 (81.43%), spam    9161 (12.64%)
</pre>
</pre>


o
È importante che l'istogramma che ne risulta sia molto simile a questo: cioè con 2 picchi separati e distinti (uno su 0.00 e l'altro su 0.95). Se abbiamo giocato troppo con i comandi per l'addestramento può darsi che il risultato sia diverso. Allora si consiglia di prendere il file <code>wordlist.db</code> (che si trova in <code>/home/$USER/.bogofilter</code>) cancellarlo e crearne uno nuovo con lo stesso nome. Non serve a nulla disinstallare i pacchetti del programma per poi reinstallarli.
<pre>
Ovviamente il nuovo file sarà vuoto e necessiterà un'altra volta dell'addestramento.
# deborphan --libdevel
Se l'istogramma è simile a quello mostrato allora possiamo dare in pipe una mail di prova "messaggio" che salviamo da qualche parte:
</pre>


possibile fare in modo che apt-get 'legga' la lista dei pacchetti generata da deborphan:
<pre>
<pre>
# apt-get --purge remove `deborphan`
    $ cat messaggio | bogofilter
# apt-get --purge remove `deborphan --libdev`
</pre>
</pre>


L'opzione --purge ha la funzione di rimuovere anche i file di configurazione.


Se il valore di ritorno (<code>echo $?</code>) è 0 la mail sarà spam, se è 1 sarà ham, se è 2 Bogofilter è incerto.


==File di Configurazione==
Da qui si capisce come sia possibile costruire un piccolo script al quale mandare in pasto (in pipe, tecnicamente) le nostre mail e, a seconda del valore di ritorno, Evolution sposterà o meno il messaggio nella cartella dello Spam. Un esempio è il seguente:


Eliminando i file di configurazione si libera spazio, e si mantiene pi pulita la directory /etc
Con il comando successivo possibile rimuovere i file di configurazione che sono stati lasciati nel sistema da quei pacchetti non rimossi con l'opzione '--purge':
<pre>
<pre>
# dpkg --purge `COLUMNS=300 dpkg -l "*" | egrep "^rc" | cut -d\  -f3`
    #!/bin/sh
</pre>
    # antispam - Wrapper per bogofilter
 
    #
Ecco una breve spiegazione dei comandi:
    # Dare in pipe a questo script l'email da controllare
<pre>dpkg --purge listapacchetti</pre>
    # Ritorna:
Rimuove i file di configurazione di tutti i pacchetti indicati in
    #  0  per lo spam
 
    #  1  per l'ham
<pre>`COLUMNS=300 dpkg -l "*" | egrep "^rc" | cut -d\  -f3`</pre>
    #  2  se il messaggio e' incerto
Genera la lista dei pacchetti che non sono stati rimossi correttamente (cio� dei quali non sono stati rimossi i file di configurazione)
    #
 
In dettaglio:
<pre>COLUMNS=300</pre> Modifica la larghezza delle righe, evitando cos� il troncamento dei nomi dei pacchetti
<pre>dpkg -l "*"</pre> Elenca tutti i pacchetti disponibili
egrep "^rc" Visualizza solo quelle righe che iniziano con "rc" (stato che indica che il pacchetto � stato rimosso ma sono ancora presenti i file di configurazione)
<pre>cut -d\ -f3</pre> Restituisce solo il nome del pacchetto
 
==Localepurge: rimuoviamo le lingue che non ci interessano!==
 
Spesso, non sono necessarie tutte le lingue che un pacchetto installa..
Di solito ne bastano due:
* '''en''' (lingua generale)
* '''it_IT''' (lingua dell'utilizzatore)
Tra le varianti va scelta quella che viene usata nel proprio sistema (nel mio caso it_IT@euro e en_US)
 
Quindi, quelle superflue, potrebbero essere tranquillamente rimosse, liberando un po' di spazio inutile!
 
{{Box|NOTA BENE|� sconsigliabile rimuovere l'inglese, in quanto � la lingua di default del sistema...
per evitare problemi, lasciarla installata.}}
 
 
Durante la configurazione di localepurge, verr� mostrata una lista di lingue, dalla quale vanno selezionate solo quelle che devono venir rimosse.


Una volta fatto questo, lanciando il comando
    SPAMBOX="/home/$USER/.evolution/mail/local/Spam"
<pre># localepurge</pre>
    HAMBOX="/home/$USER/.evolution/mail/local/Inbox"


verranno eliminati i locales non necessari!!!
    # Commentare se non si vuole istruire bogofilter sullo spam ogni volta
    # che si scarica la posta
    cat $SPAMBOX | bogofilter -M -s
   
    # Commentare se non si vuole istruire bogofilter sull'ham ogni volta
    # che si scarica la posta
    cat $HAMBOX | bogofilter -M -n


Ma non solo! quando si installer� uno o pi� pacchetti, a questi verranno automaticamente rimosse le localizzazioni che non erano state selezionate durante la configurazione del programma.
   
    # Controlla il messaggio dato in pipe (legge lo stdin)
    bogofilter


{{Box|Nota|Per chi avesse dei dubbi sull'efficacia di questa utility, ecco le statistiche sullo spazio liberato sul mio laptop (su cui ho appena installato Debian):
    # Valore di ritorno
<pre>
    RESULT=$?
knio:/home/maxer# localepurge
localepurge: Disk space freed in /usr/share/locale: 109778K
localepurge: Disk space freed in /usr/share/man: 1940K


Total disk space freed by localepurge: 111718K
    echo $RESULT
</pre>}}
    exit $RESULT
 
==La cache di apt-get==
 
Quando scarichiamo un pacchetto, questo viene salvato in /var/cache/apt/archives in modo da rendere pi� veloce il download in caso di reinstallazione, oppure per permettere il salvataggio di questi su cd (in caso di connessioni lente o a consumo).
Per�, ovviamente, occupano spazio e (dopo qualche mese, tra aggiornamenti e nuove installazioni) si arriva facilmente ad 1Gb di dati..
Per risolvere questo problemia, lo stesso apt-get ha due comandi che gestiscono la pulizia della cache dei pacchetti scaricati:
clean e autoclean
 
Vediamoli in dettaglio:
; apt-get clean : Rimuove tutti i pacchetti contenuti in /var/cache/apt/archives e in /var/cache/apt/archives/partial (eccezione fatta per i file di lock)
; apt-get autoclean : Rimuove tutti i pacchetti che non possono pi� essere scaricati (perch� rimossi dai repository Debian, versioni non pu� scaricabili in quanto 'superate',...)
 
Per quanto riguarda il sistema, abbiamo terminato...
 
==La cache di apt-build==
 
Le stesse cosa dette per ''apt-get'', valgono anche per ''apt-build''. Questo, infatti, una volta scaricati e compilati i sorgenti, non li rimuove. � facile, cos�, occupare svariati Gb di spazio con i sorgenti (e i risultati della compilazione). Apt-build, per effettuare pulizia, ci mette a disposizione 3 ''azioni'':
; clean-sources : esegue un ''debian/rules clean'', che rimuove solamente i prodotti della compilazione;
; clean-build : rimuove il contenuto della directory '''/var/cache/apt-build/build/''' che contiene i sorgenti dei pacchetti ricompilati;
; clean-repository : rimuove il contenuto della directory '''/var/cache/apt-build/repository/''' che contiene i pacchetti ricompilati tramite apt-build.
 
==Home==
 
Nella vostra home vengono creati i file di configurazione delle applicazioni!
niente di strano, se non fosse che occupano spazio, spesso senza un motivo!
per vedere questi file/directory di configurazione � necessario usare ls seguito dalla opzione -a:
<pre>
$ ls -a
</pre>
</pre>




Cos� facendo verranno mostrati i file/directory nascosti (in pratica quelli con un punto davanti).
Potete, ad esempio, salvare lo script precedente col nome <code>antispam</code>, copiarlo nel PATH (ad es. <code>/usr/local/bin/</code>) e renderlo eseguibile (<code>chmod +x antispam</code>). Ogni volta che viene mandato in pipe una email a questo script, Bogofilter viene aggiornato su cosa è spam e su cosa no e poi ci dirà se il messaggio passato è spam o meno.
Una volta individuati dei file/directory appartenenti ad applicazioni non pi� presenti nel sistema, o non pi� utilizzate dal vostro utente, si pu� procedere alla rimozione con:
<pre>
$ rm -r nome_dir
</pre>
 


dove l'opzione -r indica la ricorsivit� dell'operazione, consentendo l'eliminazione delle directory.
==Configurare Evolution per l'uso di Bogofilter==
Non ci resta ora che configurare Evolution. Disabilitiamo innanzi tutto il filtro antispam integrato di Evolution. Si trova in "Modifica/Preferenze/Preferenze di posta/Indesiderata". Poi creiamo un nuovo filtro per la posta in entrata. Come condizione di verifica del filtro (riquadro '''Se''') mettiamo "In pipe a programma", come nome del programma il nome dello script (<code>/usr/local/antispam</code>) e come valore di ritorno 0. Ora basterà aggiungere l'azione da compiere (riquadro '''allora''') che sarà ovviamente "Sposta nella cartella" Spam.


Ultimo consiglio che do è quello di inserire il filtro antispam alla fine della lista filtri (se ne avete altri), spostandolo in basso. Inserendo poi negli altri filtri come azione oltre a "Sposta nella cartella" anche "Arresta l'elaborazione" in modo che se il messaggio corrisponde al filtro non verrà più processato dai filtri successivi. In questo modo arriveranno a Bogofilter molti meno messaggi e l'elaborazione sarà ancora più veloce. Io uso questo metodo perché non arriva spam alle mailng list a cui sono iscritto. Se vi arrivasse spam anche dalle mailing list, potete non usarlo e fare filtrare tutto a Bogofilter.


==Conclusione==
==Conclusioni==
Concludo dicendo che questa è solo una delle implementazioni possibili. Ad esempio, per velocizzare ulteriormente il controllo antispam si possono commentare i cat nello script, e poi di tanto in tanto aggiornare a mano Bogofilter su cosa è spam e cosa è ham. Oppure si può usare questo procedimento con una altro programma di posta (MUA) diverso da Evolution. Le possibilità sono infinite. Spero di essere riuscito a spiegare la logica delle cose (piuttosto che aver dato una soluzione bell'e pronta) in modo che ognuno di voi possa adattare quanto detto per rispondere alle proprie esigenze, e anche (perché no) al proprio capriccio. E, in fondo, non è proprio questo il bello di usare software libero?


Queste sono le tecniche base per tenere pulita una Debian, e sono quelle che applico regolarmente alle mie macchine...
Happy hacking!
Diciamo che si avvertono i miglioramenti, soprattutto per quanto riguarda lo spazio risparmiato, che permette una miglior organizzazione dei dati all'interno del disco!


{{Autori
|Autore=[[Utente:TheNoise|~ The_Noise]]
}}


---- [[User:MaXeR|MaXeR]]
[[Categoria:Client Mail]][[Categoria:Antispam&Content filtering]]

Versione attuale delle 16:37, 27 mag 2015

Edit-clear-history.png Attenzione. Questa guida è da considerarsi abbandonata, per via del tempo trascorso dall'ultima verifica.

Potrà essere resa obsoleta, previa segnalazione sul forum, se nessuno si propone per l'adozione.


Debian-swirl.png Versioni Compatibili

Debian 6 "squeeze"
Debian 7 "wheezy"

Introduzione

In questa guida spiegherò come sostituire il filtro anti-spam di Evolution (che usa Spamassassin) con un filtro molto più veloce (in quanto bayesiano): Bogofilter. Usando Evolution ho notato che il filtro anti-spam che richiede l'uso di Spamassassin è molto lento soprattutto inserendo i controlli esterni (ovvero ogni mail viene confrontata con una lista di mail-spam note). Vi sarà capitato forse anche di usare Thunderbird che include un filtro anti-spam bayesiano (è un tecnica statistica) e di notare che questo tipo di filtro è molto più veloce ed ugualmente accurato (non so in termini assoluti quale sia il migliore ma per usi SOHO entrambi sono ampiamente soddisfacenti).

È possibile usare un filtro bayesiano anche con Evolution, con conseguente aumento della velocità. A tal scopo basta usare Bogofilter, un filtro anti-spam bayesiano da linea di comando. Per i più smaliziati descriverò sinteticamente il procedimento, gli altri troveranno informazioni più dettagliate nel seguito. In pratica basta usare la funzionalità di Evolution di creare filtri che come condizione di verifica discriminano il valore di ritorno di un programma al quale è stata mandata in pipe l'email. È molto più semplice di quello che sembra in realtà. Il vantaggio di velocità è notevole anche perché si possono filtrare prima tutte le mail delle mailing list e mandare al filtro anti-spam solo le altre email. Lo svantaggio è che, usando una tecnica statistica, bisogna inizialmente "istruire" Bogofilter a riconoscere lo spam, ma la cosa non presenta problemi se si dispone già di alcune decine di email di spam.

Usare Bogofilter sulle mailbox di Evolution

Evolution mette le mail in /home/$USER/.evolution/mail/local/, un file (in formato mbox) per ogni cartella che abbiamo in Evolution. Le email della cartella "Posta in arrivo" compreso lo spam ("da Cestinare") si trovano tutte nel file Inbox: Evolution aggiunge infatti un header che gli permette di distinguere lo spam dall'ham (prosciutto in inglese: tutto ciò che non è spam). Ora, per istruire Bogofilter è molto più comodo di disporre dello spam in un file separato. A tal scopo apriamo Evolution e spostiamo tutta la posta in "Da cestinare" in una nuova cartella che chiameremo fantasiosamente Spam. A questo punto non dimenticarsi di svuotare la cartella "Posta Indesiderata" e poi quella "da Cestinare".

Per istruire ora Bogofilter su cosa sia spam, scriveremo in un terminale dalla cartella /home/$USER/.evolution/mail/local/:

    $ cat Spam | bogofilter -M -s


dove "Spam" è la cartella di Evolution (qui file mbox) in cui abbiamo spostato lo spam. Se per errore abbiamo indicato come spam un file di mail "pulite" possiamo annullare l'operazione con lo stesso comando sostituendo -S al posto di -s.

Per indicare quali mail non sono spam scriveremo invece:

    $ cat Inbox | bogofilter -M -n


Potremo ripetere il precedente comando anche per gli altri file corrispondenti a posta "pulita". Ad esempio, io l'ho anche eseguito sugli altri file che contenevano i messaggi delle mailing list a cui sono iscritto. Se abbiamo indicato come mail "pulite" un file contenente spam, possiamo annullare l'operazione con lo stesso comando sostituendo -N al posto di -n.

Per vedere quanto adesso sia chiara a Bogofilter la differenza tra spam e ham possiamo visualizzare un diagramma con il comando (dalla home):

    $ bogoutil -H ~/.bogofilter/wordlist.db


dovremmo vedere un istogramma con due massimi nettamente distinti, questo vuol dire che a Bogofilter è abbastanza chiara la differenza tra spam e ham. Ad esempio, ecco come appare il mio istogramma, dopo aver inserito alcune centinaia di email come ham e una ottantina di mail come spam:

    Histogram
    score   count  pct  histogram
    0.00    59199 81.65 ################################################
    0.05      178  0.25 #
    0.10      114  0.16 #
    0.15      114  0.16 #
    0.20      139  0.19 #
    0.25      159  0.22 #
    0.30      139  0.19 #
    0.35      147  0.20 #
    0.40      160  0.22 #
    0.45      201  0.28 #
    0.50      151  0.21 #
    0.55      187  0.26 #
    0.60      150  0.21 #
    0.65      155  0.21 #
    0.70      243  0.34 #
    0.75      227  0.31 #
    0.80      251  0.35 #
    0.85      324  0.45 #
    0.90      356  0.49 #
    0.95     9905 13.66 #########
    tot     72499
    hapaxes:  ham   30363 (41.88%), spam       2 ( 0.00%)
       pure:  ham   59036 (81.43%), spam    9161 (12.64%)

È importante che l'istogramma che ne risulta sia molto simile a questo: cioè con 2 picchi separati e distinti (uno su 0.00 e l'altro su 0.95). Se abbiamo giocato troppo con i comandi per l'addestramento può darsi che il risultato sia diverso. Allora si consiglia di prendere il file wordlist.db (che si trova in /home/$USER/.bogofilter) cancellarlo e crearne uno nuovo con lo stesso nome. Non serve a nulla disinstallare i pacchetti del programma per poi reinstallarli. Ovviamente il nuovo file sarà vuoto e necessiterà un'altra volta dell'addestramento. Se l'istogramma è simile a quello mostrato allora possiamo dare in pipe una mail di prova "messaggio" che salviamo da qualche parte:

    $ cat messaggio | bogofilter


Se il valore di ritorno (echo $?) è 0 la mail sarà spam, se è 1 sarà ham, se è 2 Bogofilter è incerto.

Da qui si capisce come sia possibile costruire un piccolo script al quale mandare in pasto (in pipe, tecnicamente) le nostre mail e, a seconda del valore di ritorno, Evolution sposterà o meno il messaggio nella cartella dello Spam. Un esempio è il seguente:

    #!/bin/sh
    # antispam - Wrapper per bogofilter
    #
    # Dare in pipe a questo script l'email da controllare
    # Ritorna:
    #   0   per lo spam
    #   1   per l'ham
    #   2   se il messaggio e' incerto
    #

    SPAMBOX="/home/$USER/.evolution/mail/local/Spam"
    HAMBOX="/home/$USER/.evolution/mail/local/Inbox"

    # Commentare se non si vuole istruire bogofilter sullo spam ogni volta
    # che si scarica la posta
    cat $SPAMBOX | bogofilter -M -s 
    
    # Commentare se non si vuole istruire bogofilter sull'ham ogni volta
    # che si scarica la posta
    cat $HAMBOX | bogofilter -M -n 

    
    # Controlla il messaggio dato in pipe (legge lo stdin)
    bogofilter

    # Valore di ritorno
    RESULT=$?

    echo $RESULT
    exit $RESULT


Potete, ad esempio, salvare lo script precedente col nome antispam, copiarlo nel PATH (ad es. /usr/local/bin/) e renderlo eseguibile (chmod +x antispam). Ogni volta che viene mandato in pipe una email a questo script, Bogofilter viene aggiornato su cosa è spam e su cosa no e poi ci dirà se il messaggio passato è spam o meno.

Configurare Evolution per l'uso di Bogofilter

Non ci resta ora che configurare Evolution. Disabilitiamo innanzi tutto il filtro antispam integrato di Evolution. Si trova in "Modifica/Preferenze/Preferenze di posta/Indesiderata". Poi creiamo un nuovo filtro per la posta in entrata. Come condizione di verifica del filtro (riquadro Se) mettiamo "In pipe a programma", come nome del programma il nome dello script (/usr/local/antispam) e come valore di ritorno 0. Ora basterà aggiungere l'azione da compiere (riquadro allora) che sarà ovviamente "Sposta nella cartella" Spam.

Ultimo consiglio che do è quello di inserire il filtro antispam alla fine della lista filtri (se ne avete altri), spostandolo in basso. Inserendo poi negli altri filtri come azione oltre a "Sposta nella cartella" anche "Arresta l'elaborazione" in modo che se il messaggio corrisponde al filtro non verrà più processato dai filtri successivi. In questo modo arriveranno a Bogofilter molti meno messaggi e l'elaborazione sarà ancora più veloce. Io uso questo metodo perché non arriva spam alle mailng list a cui sono iscritto. Se vi arrivasse spam anche dalle mailing list, potete non usarlo e fare filtrare tutto a Bogofilter.

Conclusioni

Concludo dicendo che questa è solo una delle implementazioni possibili. Ad esempio, per velocizzare ulteriormente il controllo antispam si possono commentare i cat nello script, e poi di tanto in tanto aggiornare a mano Bogofilter su cosa è spam e cosa è ham. Oppure si può usare questo procedimento con una altro programma di posta (MUA) diverso da Evolution. Le possibilità sono infinite. Spero di essere riuscito a spiegare la logica delle cose (piuttosto che aver dato una soluzione bell'e pronta) in modo che ognuno di voi possa adattare quanto detto per rispondere alle proprie esigenze, e anche (perché no) al proprio capriccio. E, in fondo, non è proprio questo il bello di usare software libero?

Happy hacking!




Guida scritta da: ~ The_Noise Swirl-auth20.png Debianized 20%
Estesa da:
Verificata da:

Verificare ed estendere la guida | Cos'è una guida Debianized