import os import re import pandas as pd import stanza nlp = stanza.Pipeline(lang='et', processors='tokenize,pos,lemma') #Loon dokumendi, kuhu allpool arvutatud andmed salvestada andmestik = open('andmestik.txt', 'a') #Tunnusenimetuste kirjutamine faili andmestik.write('failinimi,autor,keskm_sonapikkus,2_tahte,3_tahte,4_tahte,5_tahte,6_tahte,7_tahte,8_tahte,9_tahte,10_tahte,a_osak,b_osak,' 'd_osak,e_osak,f_osak,g_osak,h_osak,i_osak,j_osak,k_osak,l_osak,m_osak,n_osak,o_osak, p_osak,r_osak,s_osak,t_osak,u_osak,v_osak,otilde_osak,' 'aum_osak,oum_osak,uum_osak,omadussonad,maarsonad,hyydsonad,sidesonad,kaassonad,asesonad,nimisonad,tegusonad,nominaalsus,leksvar\n') #Määran alamkaustad, mille dokumente tahan analüüsida folders = ['Viiding', 'Ristikivi', 'Talvik', 'Kareva'] for folder in folders: #Määran töökausta ja arvutan soovitud tunnused välja kõigi sealsete txt-dokumentide kohta directory = 'luule/'+folder for filename in os.listdir(directory): if filename.endswith('.txt'): #teksti sisselugemine, suurtähtede kaotamine, läbipaistvate sümbolite eemaldamine teksti algusest ja lõpust luuletekst = open('luule/'+folder+'/'+filename).read().lower().strip() # Tähtede osakaalude arvutamine #Määran tähed, mille osakaalu soovin võrrelda tahestik = ['a', 'b', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'v', 'õ', 'ä', 'ö', 'ü'] #Leian kõigi tähtede arvu luuletuses tahed = len(re.findall('[\w]', luuletekst)) #Leian kõigi tähestiku loendi tähtede osakaalu. #Kaks loendit on seotud indeksi kaudu, nt a-tähe osakaalu indeks on 0. taheosakaalud = [] for taht in tahestik: sagedus = len(re.findall(taht, luuletekst)) osakaal = sagedus / tahed taheosakaalud.append(osakaal) # Teksti märgendamine sõnapiiride, sõnade algvormide ja sõnaliikide tuvastamiseks doc = nlp(open('luule/'+folder+'/'+filename).read()) valjund = open('luule/'+folder+'_parsitud/'+filename, 'a') valjund.write('sona\tlemma\tsonaliik\n') #Kuna luuletuses on lausepiire raske määrata, siis pole sõnade arv lauses oluline. #Soovin väljundifaili ainult sõnavormi, algvormi ja sõnaliiki. for sent in doc.sentences: for word in sent.words: word.text = word.text.lower() margendid = '\n'.join([f'{word.text}\t{word.lemma}\t{word.xpos}']) valjund.write(margendid+'\n') valjund.close() # Sõnapikkuste ja sõnaliikide osakaalude arvutamine luuletus = pd.read_csv('luule/'+folder+'_parsitud/'+filename, sep = '\t') luuletus = luuletus[luuletus.sonaliik != 'Z'] #kirjavahemärkide kõrvalejätmine sonad = luuletus.sona.count() #sõnade arv luuletuses luuletus['sonapikkus'] = [len(sona) for sona in luuletus.sona] #sõnapikkuse tulba loomine #Keskmine sõnade pikkus luuletuses kesksona = luuletus['sonapikkus'].mean() #Leian eri pikkusega sõnade osakaalu sonapikkused = luuletus.groupby('sonapikkus').sonapikkus.count().to_frame() sonapikkused.rename(columns={'sonapikkus':'sagedus'}, inplace=True) sonapikkused['sonapikkus'] = sonapikkused.index sonapikkused['osakaal'] = sonapikkused['sagedus'] / sonad #Talletan kahe- kuni kümnetäheliste sõnade osakaalu loendisse, kus indeksiga 0 on tähistatud kahetähelised sõnad, indeksiga 1 kolmetähelised sõnad jne. pikkuseosakaalud = [] for i in range(2, 11): osak = sonapikkused[sonapikkused.sonapikkus == i].osakaal.sum() pikkuseosakaalud.append(osak) #Leian sõnaliikide osakaalud sonaliigid = luuletus.groupby('sonaliik').sonaliik.count().to_frame() sonaliigid.rename(columns={'sonaliik':'sagedus'}, inplace=True) sonaliigid['sonaliik'] = sonaliigid.index sonaliigid['osakaal'] = sonaliigid['sagedus'] / sonad #Talletan sõnaliikide osakaalud loendisse, kus indeksiga 0 on tähistatud omadussõnad ('A'), indeksiga 1 määrsõnad ('D') jne. liigilist = ['A', 'D', 'I', 'J', 'K', 'P', 'S', 'V'] liigiosakaalud = [] for liik in liigilist: osak = sonaliigid[sonaliigid.sonaliik == liik].osakaal.sum() liigiosakaalud.append(osak) #Leian luuletuse nimisõnalisuse SV = sonaliigid[sonaliigid.sonaliik == 'S'].sagedus.sum() / sonaliigid[sonaliigid.sonaliik == 'V'].sagedus.sum() #Erinevate sõnade ja kõigi tekstisõnade suhtarvu leidmine lemmad = luuletus.groupby('lemma').lemma.count().to_frame() #andmetabel sõnade grupeerimiseks algvormi e lemma järgi lemmad.rename(columns={'lemma':'sagedus'}, inplace=True) lemmad['lemma'] = lemmad.index erilemmad = lemmad.lemma.count() leksvar = erilemmad / sonad #Salvestan konkreetse teksti andmed andmestikku - NB! Autori nime tähis! andmestik.write(str(filename)+','+folder+','+str(kesksona)+','+str(pikkuseosakaalud[0])+','+str(pikkuseosakaalud[1])+','+str(pikkuseosakaalud[2])+','+str(pikkuseosakaalud[3])+','+str(pikkuseosakaalud[4])+ ','+str(pikkuseosakaalud[5])+','+str(pikkuseosakaalud[6])+','+str(pikkuseosakaalud[7])+','+str(pikkuseosakaalud[8])+','+str(taheosakaalud[0])+','+str(taheosakaalud[1])+','+str(taheosakaalud[2])+ ','+str(taheosakaalud[3])+','+str(taheosakaalud[4])+','+str(taheosakaalud[5])+','+str(taheosakaalud[6])+','+str(taheosakaalud[7])+','+str(taheosakaalud[8])+','+str(taheosakaalud[9])+ ','+str(taheosakaalud[10])+','+str(taheosakaalud[11])+','+str(taheosakaalud[12])+','+str(taheosakaalud[13])+','+str(taheosakaalud[14])+','+str(taheosakaalud[15])+','+str(taheosakaalud[16])+ ','+str(taheosakaalud[17])+','+str(taheosakaalud[18])+','+str(taheosakaalud[19])+','+str(taheosakaalud[20])+','+str(taheosakaalud[21])+','+str(taheosakaalud[22])+','+str(taheosakaalud[23])+ ','+str(liigiosakaalud[0])+','+str(liigiosakaalud[1])+','+str(liigiosakaalud[2])+','+str(liigiosakaalud[3])+','+str(liigiosakaalud[4])+','+str(liigiosakaalud[5])+','+str(liigiosakaalud[6])+ ','+str(liigiosakaalud[7])+','+str(SV)+','+str(leksvar)+'\n') andmestik.close()