|
|
|
OCR-Scanning av SPAM-bilder i Mac OS X Server 10.5Introduktion: Mängden SPAM som innefattar bilder där budskapet står skrivet ökar, det kan vara svårt att komma åt med vanliga metoder. Här nedan beskriver jag hur du konfigurerar så att dessa bilder läses av med en OCR-Scanner så att texten som står på dom ska kunna tolkas av spamassassin. Nackdelen med detta är dock att det kräver lite extra CPU, så har du en server med väldigt hög volym så kanske det kan bli segt. Jag utgår från en standardinstall av OS X Server 10.5.1, se till så att du har Filtering (spamassassin) påslaget i Server Admin. Så hur gör man? Installera XcodeTools om du inte redan har gjort det. När Macports är installerat kör dessa kommandon i terminalen. sudo -s port install NetPBM port install Giflib port install Gocr port install ocrad Ladda ner och installera gifsicle från source. (Port-versionen klagade på X11 trots att det var installerat) Finns här: http://www.lcdf.org/gifsicle/ Installera lite Perl-moduler, starta cpan och kör: install String::Approx install Time::HiRes Ladda hem ORC-pluginen till Spamassassin, http://fuzzyocr.own-hero.net/wiki/Downloads Packa upp och flytta lite filer dit dom skall vara: cp -R FuzzyOcr* /etc/mail/spamassassin (skapa egen ordlista FuzzyOcr.words om du hellre vill det) Ändra lite värden i FuzzyOcr.cf Sätt en logfil och ändra var den ska hitta alla programmen. (ports installeras i /opt, men gifsicle du kompilerade läggs i /usr/local, om du inte specificerade annat) focr_logfile /var/log/FuzzyOcr.log focr_path_bin /opt/local/bin focr_bin_gifsicle /usr/local/bin/gifsicle Skapa logfilen: touch /var/log/FuzzyOcr.log Testa om allt fungerar. I katalogen samples kör nedanstående: spamassassin --debug FuzzyOcr < ./ocr-animated.eml > /dev/null Får du upp nåt liknande det nedan och inte några errors så är du good to go: dbg: FuzzyOcr: Enough OCR Hits without space stripping, skipping second matching pass... info: FuzzyOcr: Scanset "ocrad" generates enough hits (4), skipping further scansets... info: FuzzyOcr: Message is spam, score = 9.000 info: FuzzyOcr: Words found: info: FuzzyOcr: "price" in 1 lines info: FuzzyOcr: "company" in 1 lines info: FuzzyOcr: "alert" in 1 lines info: FuzzyOcr: "news" in 1 lines info: FuzzyOcr: (6 word occurrences found) Wham BAM thank you mam! Lämna gärna en kommentar nedan om du finner denna guide användbar. |
|
|
Copyright © 2010 sorkpappa.se - All Rights Reserved |
|
Senaste kommentarer