Lihtsamal juhul piisab sellisest regulaaravaldisest, mis vastab nii tavapärastele elemendi algus- ja lõpumärgenditele kui ka sellistele märgenditele, mis sisaldavad võrdusmärki, jutumärke ja veebilinki: <[A-Z0-9/="-:\.\s]+> Võib kirjutada ka lühemalt: <[\w/="-:\.\s]+> Tabulaatorid (\t+) saab asendusfunktsiooniga ära kaotada, mitmekordsed tühikud (\s+) asendada üheainsa tühikuga. Tühjad read saab kaotada järgmiselt: Edit > Line operations > Remove empty lines Tartu Ülikooli kirjakeele korpuse tekstides esineb ka märgendeid, mis sisaldavad alakriipsu, dollari- ja trellimärki. Seega tuli märgendite leidmise regulaaravaldist pisut täiendada: <[A-Z0-9/="-:_$#\.\s]+> või <[\w/="-:_$#\.\s]+> Teksti puhastamisel on mitmekordsete tühikute kaotamisele lisaks oluline silmas pidada seda, et sõnade ja neile järgnevate kirjavahemärkide vahel on tühikud. Need saab asendusfunktsiooniga lihtsasti kaotada, nt asendades koma ja tühiku üksnes komaga. Erinevalt välja pakutud Pythoni skriptist ei võimalda Notepad++-s regulaaravaldiste kasutamine eraldada üksnes sisuteksti. Algusosa, mis sisaldab metainfot, võib failist lihtsalt kustutada - ükskõik kas enne või pärast asendusi.