Mijnbouw e-mail is een middel van extraheren van informatie , zoals het aantal woorden , zinnen , of de rijkdom van de woordenschat van uw correspondent , uit de tekst in de e-mail . Het schrijven van een e- mijnwerker met Python vereist vele " bewegende delen " in de vorm van Python extensies , pakketten genoemd , dat te downloaden mailberichten off van servers . Berichten worden omgezet in tekenreeksen zodat andere Python pakketten te kunnen lezen en te tonen wat ze vinden . Dit is een zeer complexe taak die meer dan een voorbijgaande toevallige kennis van Python programmering vereist . Daarom voorzichtig te werk gaan en geduld . Wat je nodig hebt internetverbinding Python 2.6 of hoger NLTK Python Package Toon Meer Aanwijzingen 1 Open een terminal sessie en typ python - v op de prompt om te controleren of u Python 2.6 of hoger , maar niet 3.0 of hoger . Versies 2.6 of 2.7 zijn ideaal omdat ze compatibel zijn met NLTK en PyYAML . Bezoek de Python pakketten indexpagina , vinden en downloaden van de PyYAML en NLTK pakketten. Unzip /untar hen. Verander je map naar de PyYAML directory . Op opdrachtregelprompt typ in : sudo python setup.py install . Het moet er zo uitzien : My - Computer : PyYAML - 3.2.0 Me $ sudo python setup.py installeren U wordt gevraagd om een wachtwoord. Typ het en druk op de return -toets . Volg deze procedure voor elke Python- pakket dat u installeert Download mailberichten 2 voor het ontleden met de volgende regels code : . ! # /Usr /local /bin /python < br > import poplib , GETPASS , sys , mailconfig mailserver = mailconfig.popservername Mailuser = mailconfig.popusername mailpasswd = getpass.getpass ( 'Wachtwoord voor % s ? ' % mailserver ) server = msgBytes = server.stat ( ) afdruk ( ' Er zijn ' , msgCount , ' mailberichten in' , msgBytes , ' bytes ' ) afdruk ( server.list ( ) ) < br druk > ( ' - ' * 80 ) ingang ( ' [ Press Enter ] ' ) op Twitter for i in range ( msgCount ) : hdr , bericht , octets = server.retr ( i +1 ) op voor lijn in bericht : print ( line.decode ( ) ) read ( ' - ' * 80 ) op Twitter als ik < msgCount - 1 : Dit script maakt verbinding met uw pop3 e-mailserver , wordt u gevraagd om uw gebruikersnaam en wachtwoord , tel het aantal berichten op de server en lees ze in het geheugen < br . > Mine 3 uw e-mailberichten door het omzetten van elk bericht naar een string , een inheemse soort gegevens in Python , die kan worden doorzocht met Python 's touwtje methoden , reguliere expressie motor , en Natural Language Toolkit : < br > m = msgCount [ 1 ] s = str ( m ) op Twitter uit email.parser import -parser import nltk import re Mine 4 de eerste boodschap voor alle informatie van belang . Ontdek hoeveel woorden zijn in die boodschap door de volgende opdracht : >>>> len ( s) van Het zal een geheel getal voor het aantal woorden terug . Om elke zin te vinden met het woord hypotheek , voert u de volgende NLTK opdracht : >>>> s.concordance ( ' hypotheek ' ) op Twitter Dit zal elke zin terug te keren met de woord hypotheek in; zeer nuttig voor rechercheurs onderzoeken van hypotheekfraude . |