Introduktion:

Mängden SPAM som innefattar bilder där budskapet står skrivet ökar, det kan vara svårt att komma åt med vanliga metoder. Här nedan beskriver jag hur du konfigurerar så att dessa bilder läses av med en OCR-Scanner så att texten som står på dom ska kunna tolkas av spamassassin. Nackdelen med detta är dock att det kräver lite extra CPU, så har du en server med väldigt hög volym så kanske det kan bli segt.

Jag utgår från en standardinstall av OS X Server 10.5.1, se till så att du har Filtering (spamassassin) påslaget i Server Admin.

Så hur gör man?

Installera XcodeTools om du inte redan har gjort det.
Installera Macports för att installera nödvändiga program och moduler. http://www.macports.org/

När Macports är installerat kör dessa kommandon i terminalen.

sudo -s
port install NetPBM
port install Giflib
port install Gocr
port install ocrad

Ladda ner och installera gifsicle från source. (Port-versionen klagade på X11 trots att det var installerat)
Finns här: http://www.lcdf.org/gifsicle/

Installera lite Perl-moduler, starta cpan och kör:

install String::Approx
install Time::HiRes

Ladda hem ORC-pluginen till Spamassassin, http://fuzzyocr.own-hero.net/wiki/Downloads

Packa upp och flytta lite filer dit dom skall vara:

cp -R FuzzyOcr* /etc/mail/spamassassin

(skapa egen ordlista FuzzyOcr.words om du hellre vill det)

Ändra lite värden i FuzzyOcr.cf Sätt en logfil och ändra var den ska hitta alla programmen. (ports installeras i /opt, men gifsicle du kompilerade läggs i /usr/local, om du inte specificerade annat)

focr_logfile /var/log/FuzzyOcr.log
focr_path_bin /opt/local/bin
focr_bin_gifsicle /usr/local/bin/gifsicle

Skapa logfilen:
touch /var/log/FuzzyOcr.log

Testa om allt fungerar. I katalogen samples kör nedanstående:
spamassassin --debug FuzzyOcr < ./ocr-animated.eml > /dev/null

Får du upp nåt liknande det nedan och inte några errors så är du good to go:
  dbg: FuzzyOcr: Enough OCR Hits without space stripping, skipping second matching pass...
  info: FuzzyOcr: Scanset "ocrad" generates enough hits (4), skipping further scansets...
  info: FuzzyOcr: Message is spam, score = 9.000
  info: FuzzyOcr: Words found:
  info: FuzzyOcr: "price" in 1 lines
  info: FuzzyOcr: "company" in 1 lines
  info: FuzzyOcr: "alert" in 1 lines
  info: FuzzyOcr: "news" in 1 lines
  info: FuzzyOcr: (6 word occurrences found)

Wham BAM thank you mam!

Lämna gärna en kommentar nedan om du finner denna guide användbar.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>