Antispam in Evolution con Bogofilter: differenze tra le versioni

Vai alla navigazione Vai alla ricerca
m (firma)
Riga 1: Riga 1:
{{debianized}}
==Introduzione==
==Introduzione==


Dopo  qualche mese di utilizzo di una linux box, spesso si notano dei sostanziali rallentamenti...
In questa guida spiegher� come sostituire il filtro antispam di evolution (che usa spamassassin) con un filtro molto pi� veloce (in quanto bayesiano): bogofilter.
Magari abbiamo passato questi periodi installando e disintallando applicazioni, provando programmi e configurazioni...ed il sistema risente un po' di queste 'esperienze'...
Usando Evolution ho notato che il filtro antispam che richiede l'uso di spamassassin � molto lento soprattutto inserendo i controlli esterni (ovvero ogni mail viene confrontata con una lista di mail-spam note). Vi sar� capitato forse anche di usare Thunderbird che include un filtro anti-spam bayesiano (un tecnica statistica) e di notare che questo tipo di filtro � molto pi� veloce ed ugualmente accurato (non so in termini assoluti quale sia il migliore ma per usi SOHO entrambi sono ampiamente soddisfacenti).
In questo HowTo vedremo di analizzare una soluzione molto comoda (sicuramente molto di pi� di quella classica di formattare e ricominciare da capo) per rimettere in sesto la nostra amata Debian.
 
==Prevenire � meglio che curare==
 
Penso che sia una cosa certa, poter lavorare su un sistema 'pulito' e 'pulibile' sicuramente pi� comodo e divertente che su uno 'sporco' e mal gestito, soprattutto quando si tratta di pulizia o di interventi sul sistema!


Iniziamo con la rassegna di applicazioni utili:
� possibile usare un filtro bayesiano anche con evolution, con conseguente aumento della velocit�. A tal scopo basta usare bogofilter, un filtro antispam bayessiano da linea di comando. Per i pi� smaliziati descriver� sinteticamente il procedimento, gli altri troveranno informazioni pi� dettagliate nel seguito. In pratica basta usare la funzionalit� di evolution di creare filtri che come condizione di verifica discriminano il valore di ritorno di un programma al quale � stata mandata in pipe l'email. � molto pi� semplice di quello che sembra in realt�. Il vantaggio di velocit� � notevole anche perch� si possono filtrare prima tutte le mail delle mailing list e mandare al filtro antispam solo le altre email. Lo svantaggio � che, usando una tecnica statistica, bisogna inizialmente "istruire" bogofilter a riconoscere lo spam, ma la cosa non presenta problemi se si dispone gi� di alcune decine di email di spam.




==CheckInstall: deb da sorgenti==
==Usare bogofilter sulle mailbox di Evolution==


Checkinstall � una utilit� che permette di creare dei pacchetti Debian partendo da sorgenti...
Evolution mette le mail in /home/$USER/.evolution/mail/local/, un file (in formato mbox) per ogni cartella che abbiamo in Evolution. Le email della cartella "Posta in arrivo" compreso lo spam ("da Cestinare") st� tutta nel file Inbox: evolution aggiunge infatti un header che gli permette di distinguere lo spam dall'ham (prosciutto in inglese: tutto ci� che non � spam). Ora, per istruire bogofilter � molto pi� comodo di disporre dello spam in un file separato. A tal scopo apriamo evolution e spostiamo tutta la posta in "Da cestinare" in una nuova cartella che chiameremo fantasiosamente Spam. A questo punto non ci resta che istruire bogofilter.
Attenzione, per�: non sono pacchetti completi, ma semplicemente aiutano a tenere traccia dei file installati dal programma, facilitando l'aggiornamento e la rimozione dello stesso.
Iniziamo con l'installazione:
<pre>
# apt-get install checkinstall
</pre>


Per istruire bogofilter su cosa spam scriveremo in un terminale dalla cartella /home/$USER/.evolution/mail/local/:


L'utilizzo molto semplice ed intuitivo: la configurazione dei sorgenti (./configure --some-options) e la compilazione (make) devono venir svolte, mentre il comando
<pre>
<pre>
# make install
    $ cat Spam | bogofilter -M -s
</pre>
</pre>


deve essere sostituito da
<pre>
# checkinstall
</pre>
Ed il gioco fatto!
Durante l'esecuzione del programma verranno poste alcune domande, ad esempio il tipo di pacchetto (il programma permette di creare pacchetti deb, rpm, tgz (usati da slackware))!
Sono disponibili, opzionalmente, le seguenti direttive (anche se non mi mai capitato di doverne fare uso):
; -y, --default : Accetta i valori di default (Modalit non interattiva)
; --pkgname=name : Imposta il nome del pacchetto
; --pkgversion=version : Imposta la versione
; -A, --arch, --pkgarch=arch : Imposta l'architettura
; --pkgrelease=release : Imposta la release version
; --pkggroup=group : Imposta il gruppo a cui il pacchetto deve appartenere (doc, games, net...)
; --pakdir=directory : Dove salvare il pacchetto
; --maintainer=email_addr : Il maintainer del pacchetto
; --dpkgflags=flags : Eventuali flag da passare a dpkg
; --bk : Esegue un Backup dei file che verranno sovrascritti
Una volta completato il processo, il pacchetto verr automaticamente installato.


{{Box|Nota Bene|Nel file di controllo del pacchetto non vengono segnate eventuali dipendenze, sostituzioni e/o conflitti, in quanto lo scopo di checkinstall � quello di tenere traccia dei file generati, e non di creare un pacchetto Debian ufficiale...
dove "Spam" � la cartella di evolution (qui file mbox) in cui abbiamo spostato lo spam. Se abbiamo indicato come spam un file di mail "pulite" possiamo annullare l'operazione con lo stesso comando sostituendo -S al posto di -s.
Non ridistribuite il pacchetto cos� creato: � solo per uso personale (per motivazioni uguali a quella precedente)!}}




Questa � la premessa per poter avere un sistema pulito, senza file 'orfani' che gironzolano per il sistema...
Per indicare quali mail non sono spam scriveremo invece:


==Debfoster==
<pre>
<pre>
# apt-get install debfoster
    $ cat Inbox | bogofilter -M -s
</pre>
</pre>
Lo scopo di questo programma di mostrare i pacchetti che non sono installati come dipendenze...
Una volta individuato uno di questi pacchetti, ver mostrata una lista con indicati i pacchetti 'bloccati' da questo.
Output d'esempio:
<pre>
libxml-libxml-perl is keeping the following 3 packages installed:
libxml-libxml-common-perl libxml-namespacesupport-perl libxml-sax-perl
Keep libxml-libxml-perl? [Ynpsiuqx?], [H]elp:</pre>




Ora possiamo scegliere cosa fare:
Potremo ripetere il precendente comando anche per gli altri file corrispondenti a posta "pulita". Ad esempio io l'ho anche eseguito sugli altri file che contenevano i messaggi delle mailing list a cui sono iscritto. Se abbiamo indicato come spam un file di mail "pulite" possiamo annullare l'operazione con lo stesso comando sostituendo -S al posto di -s.
Per vedere quanto adesso sia chiara a bogofilter la differenza tra spam e ham possiamo visualizzare un diagramma con il comando (dalla home):


; Y : mantiene il pacchetti installato
; n : Rimuove il pacchetto segnalato
; p : Rimuove il pacchetto segnalato e tutti i pacchetti da lui trattenuti
; s : Salta la domanda
; i : Visualizza informazioni sul pacchetto
; ? : Uguale a '''i'''
; u : Ripropone la domanda precedente
; q : Esce senza apportare alcuna modifica
; x : Esce e rimuove i pacchetti selezionati
; h : Visualizza la guida ai comandi
Che dire...uno strumento veramente potente!
Quando si procede alla pulizia con questo programma, per, bene fare attenzione ad alcune cose, che potrebbero generare non pochi problemi:
- Tutte le informazioni mostrate non prendono in considerazione eventuali programmi compilati da sorgenti (con il classico make install o anche con checkinstall);
- Leggere con attenzione le librerie elencate come 'bloccate', in quanto qualche volta potrebbe essere indicata, per esempio, una libreria di sviluppo non necessaria all'esecuzione di altri programmi, ma indispensable per la compilazione (libncurses5-dev, ad esempio).
==Deborphan==
<pre>
<pre>
# apt-get install deborphan
    $ bogoutil -H .bogofilter/wordlist.db
</pre>
</pre>


Questo programma, genera una lista di pacchetti 'orfani'.
Per pacchetti 'Orfani' indichiamo quelle librerie che non sono pi necessarie, in quanto nessun pacchetto installato le indica come dipendenza.
Attenzione se si hanno programmi compilati da sorgente (in modo classico o con checkinstall): le dipendenze di quei pacchetti sono saranno controllate, e si potrebbe incorrere in problemi di esecuzione di questi programmi!
Opzione interessante '''--libdev''', che genera una lista delle librerie di sviluppo (quelle che finiscono con -dev) non necessarie!
Per visualizzare una lista dei pacchetti 'Orfani', sufficiente lanciare il seguente comando:
<pre>
# deborphan
</pre>


o
dovremmo vedere in istogramma con due massimi nettamente distinti, questo vuol dire che a bogofilter � molto chiara la differenza tra spam e ham. Ad esempio ecco come appare il mio istogramma, dopo aver inserito alcune centinaia di email come ham e una ottantina di mail come spam:
<pre>
# deborphan --libdevel
</pre>


possibile fare in modo che apt-get 'legga' la lista dei pacchetti generata da deborphan:
<pre>
<pre>
# apt-get --purge remove `deborphan`
    Histogram
# apt-get --purge remove `deborphan --libdev`
    score  count  pct  histogram
    0.00    59199 81.65 ################################################
    0.05      178  0.25 #
    0.10      114  0.16 #
    0.15      114  0.16 #
    0.20      139  0.19 #
    0.25      159  0.22 #
    0.30      139  0.19 #
    0.35      147  0.20 #
    0.40      160  0.22 #
    0.45      201  0.28 #
    0.50      151  0.21 #
    0.55      187  0.26 #
    0.60      150  0.21 #
    0.65      155  0.21 #
    0.70      243  0.34 #
    0.75      227  0.31 #
    0.80      251  0.35 #
    0.85      324  0.45 #
    0.90      356  0.49 #
    0.95    9905 13.66 #########
    tot    72499
    hapaxes:  ham  30363 (41.88%), spam      2 ( 0.00%)
      pure:  ham  59036 (81.43%), spam    9161 (12.64%)
</pre>
</pre>


L'opzione --purge ha la funzione di rimuovere anche i file di configurazione.


Se abbiamo una email possiamo ora controllare se sia spam o meno dandolo in pipe a bogofilter con il seguente comando:


==File di Configurazione==
Eliminando i file di configurazione si libera spazio, e si mantiene pi pulita la directory /etc
Con il comando successivo possibile rimuovere i file di configurazione che sono stati lasciati nel sistema da quei pacchetti non rimossi con l'opzione '--purge':
<pre>
<pre>
# dpkg --purge `COLUMNS=300 dpkg -l "*" | egrep "^rc" | cut -d\ -f3`
    $ cat messaggio | bogofilter
</pre>
</pre>


Ecco una breve spiegazione dei comandi:
<pre>dpkg --purge listapacchetti</pre>
Rimuove i file di configurazione di tutti i pacchetti indicati in
<pre>`COLUMNS=300 dpkg -l "*" | egrep "^rc" | cut -d\ -f3`</pre>
Genera la lista dei pacchetti che non sono stati rimossi correttamente (cio dei quali non sono stati rimossi i file di configurazione)
In dettaglio:
<pre>COLUMNS=300</pre> Modifica la larghezza delle righe, evitando cos il troncamento dei nomi dei pacchetti
<pre>dpkg -l "*"</pre> Elenca tutti i pacchetti disponibili
egrep "^rc" Visualizza solo quelle righe che iniziano con "rc" (stato che indica che il pacchetto stato rimosso ma sono ancora presenti i file di configurazione)
<pre>cut -d\ -f3</pre> Restituisce solo il nome del pacchetto
==Localepurge: rimuoviamo le lingue che non ci interessano!==
Spesso, non sono necessarie tutte le lingue che un pacchetto installa..
Di solito ne bastano due:
* '''en''' (lingua generale)
* '''it_IT''' (lingua dell'utilizzatore)
Tra le varianti va scelta quella che viene usata nel proprio sistema (nel mio caso it_IT@euro e en_US)
Quindi, quelle superflue, potrebbero essere tranquillamente rimosse, liberando un po' di spazio inutile!
{{Box|NOTA BENE| sconsigliabile rimuovere l'inglese, in quanto la lingua di default del sistema...
per evitare problemi, lasciarla installata.}}
Durante la configurazione di localepurge, verr mostrata una lista di lingue, dalla quale vanno selezionate solo quelle che devono venir rimosse.


Una volta fatto questo, lanciando il comando
Se il valore di ritorno (echo $?) � 0 la mail sar� spam, se � 1 sar� ham, se � 2 bogofilter � incerto.
<pre># localepurge</pre>


verranno eliminati i locales non necessari!!!
Da qui si capisce come sia possibile costruire un piccolo script al quale mandare in pasto (in pipe, tecnicamente) le nostre mail ed a seconda del valore di ritorno evolution sposter� o meno il messagio nella cartella dello Spam. Un esempio � il seguente:


Ma non solo! quando si installer uno o pi pacchetti, a questi verranno automaticamente rimosse le localizzazioni che non erano state selezionate durante la configurazione del programma.
{{Box|Nota|Per chi avesse dei dubbi sull'efficacia di questa utility, ecco le statistiche sullo spazio liberato sul mio laptop (su cui ho appena installato Debian):
<pre>
<pre>
knio:/home/maxer# localepurge
    #!/bin/sh
localepurge: Disk space freed in /usr/share/locale: 109778K
    # antispam - Wrapper per bogofilter
localepurge: Disk space freed in /usr/share/man: 1940K
    #
    # Dare in pipe a questo script l'email da controllare
    # Ritorna:
    #  0  per lo spam
    #  1  per l'ham
    #  2  se il messaggio e' incerto
    #


Total disk space freed by localepurge: 111718K
    SPAMBOX="/home/$USER/.evolution/mail/local/Spam"
</pre>}}
    HAMBOX="/home/$USER/.evolution/mail/local/Inbox"


==La cache di apt-get==
    # Commentare se non si vuole istruire bogofilter sullo spam ogni volta
    # che si scarica la posta
    cat $SPAMBOX | bogofilter -M -s
   
    # Commentare se non si vuole istruire bogofilter sull'ham ogni volta
    # che si scarica la posta
    cat $HAMBOX | bogofilter -M -n


Quando scarichiamo un pacchetto, questo viene salvato in /var/cache/apt/archives in modo da rendere pi� veloce il download in caso di reinstallazione, oppure per permettere il salvataggio di questi su cd (in caso di connessioni lente o a consumo).
   
Per�, ovviamente, occupano spazio e (dopo qualche mese, tra aggiornamenti e nuove installazioni) si arriva facilmente ad 1Gb di dati..
    # Controlla il messaggio dato in pipe (legge lo stdin)
Per risolvere questo problemia, lo stesso apt-get ha due comandi che gestiscono la pulizia della cache dei pacchetti scaricati:
    bogofilter
clean e autoclean


Vediamoli in dettaglio:
    # Valore di ritorno
* '''apt-get clean'''
    RESULT=$?
Rimuove tutti i pacchetti contenuti in /var/cache/apt/archives e in /var/cache/apt/archives/partial (eccezione fatta per i file di lock)
* '''apt-get autoclean'''
Rimuove tutti i pacchetti che non possono pi� essere scaricati (perch� rimossi dai repository Debian, versioni non pu� scaricabili in quanto 'superate',...)


Per quanto riguarda il sistema, abbiamo terminato...
    echo $RESULT
    exit $RESULT
</pre>


==Home==


Nella vostra home vengono creati i file di configurazione delle applicazioni!
Potete, ad esempio, salvare lo script precedente col nome antispam, copiarlo nel PATH (ad es. /usr/local/bin/) e renderlo eseguibile (chmod +x antispam). Ogni volta che viene mandato in pipe una email a questo script, bogofilter viene aggiornato su cosa � spam e su cosa no e poi ci dir� se il messagio passato spam o meno.
niente di strano, se non fosse che occupano spazio, spesso senza un motivo!
per vedere questi file/directory di configurazione necessario usare ls seguito dalla opzione -a:
<pre>
$ ls -a
</pre>


==Configurare Evolution per l'uso di bogofilter==


Cos� facendo verranno mostrati i file/directory nascosti (in pratica quelli con un punto davanti).
Non ci resta ora che configurare Evolution. Disabilitiamo innanzi tutto il filtro antispam integrato di evolution. Poi creiamo un nuovo filtro per la posta in entrata. Come condizione di verifica del filtro (riquadro Se) mettiamo "In pipe a programma", come nome del programma il nome dello script (/usr/local/antispam) e come valore di ritorno 0. Ora baster� aggiungere l'azione da compiere (campo allora) che sar� ovviamente "Sposta nella cartella" Spam.
Una volta individuati dei file/directory appartenenti ad applicazioni non pi� presenti nel sistema, o non pi� utilizzate dal vostro utente, si pu� procedere alla rimozione con:
<pre>
$ rm -r nome_dir
</pre>
 


dove l'opzione -r indica la ricorsivit� dell'operazione, consentendo l'eliminazione delle directory.
Ultimo consiglio che do � quello di inserire il filtro antispam alla fine della lista filtri (se ne avete altri), spostandolo in basso. Inserendo poi negli altri filtri come azione oltre a "Sposta nella cartella" anche "Arresta l'elaborazione" in modo che se il messagio corrisponde al filtro non verr� pi� processato dai filtri successivi. In questo modo arriveranno a bogofilter molti meno messaggi e l'elaborazione sar� ancora pi� veloce. Io uso questo metodo perch� non arriva spam alle mailng list a cui sono iscritto. Se vi arrivase spam anche dalle mailing list, potete non usarlo e fare filtrare tutto a bogofilter.


==Conclusioni==


==Conclusione==


Queste sono le tecniche base per tenere pulita una Debian, e sono quelle che applico regolarmente alle mie macchine...
Concludo dicendo che questa � solo una delle implementazioni possibili. Ad esempio per velocizzare ulteriormente il controllo antispam si possono commentare i cat nello script, e poi di tanto in tanto aggiornare a mano bogofilter su cosa � spam e cosa � ham. Oppure si pu� usare questo procedimento con una altro programma di posta (MUA) diverso da Evolution.Le possibilit� sono infinite. Spero di essere riuscito a spiegare la logica delle cose (piuttosto che aver dato una soluzione bell'e pronta) in modo che ognuno di voi possa adattare quanto detto per rispondere alle proprie esigenze, e anche (perch� no) al proprio capriccio. E, in fondo, non � proprio questo il bello di usare software libero?
Diciamo che si avvertono i miglioramenti, soprattutto per quanto riguarda lo spazio risparmiato, che permette una miglior organizzazione dei dati all'interno del disco!


Happy hacking!


---- [[User:MaXeR|MaXeR]]
----
Autore: [[Utente:TheNoise|~ The_Noise]]
10

contributi

Menu di navigazione