[LC] Statistica


revisioni

terminologia di base

  • campione: sottinsieme della popolazione
  • distribuzioni di frequenza: strumento attraverso cui si riassumono i dati raccolti

statistica e testo

popolazione linguistica linguaggio oggetto di studio campione corpus di testi dell popolazione linguistica unità statistiche parole altre unità linguistica come unita Statistica morfemi sintagmi farasi etc

(slide)

token (o unità) replica, istanza in inglese.

Diversi tipi di variabili per scrivere qualunque occorrenza di una unità statistica (frase, parola, sintagma etc.)

parola tipo

classe di tutti i token che contengono alla stessa sequenza di caratteri. «era» ed «è» sono lo stesso lemma ma non lo stesso token. Due parole unità che appartengono

frequenza assoluta (vedi slide)

token e type

la porta è chiusa. La strada porta al mare. : 2 token

porta : 1 type

porta, portare : 2 lemmi

frequenze di parole

i confronti vanno fatti, tra corpus, riferendosi alla frequenza relativa della parola in percentuale, non contanto le occorrenze assolute, ma normalizzandole.

vocabolario di un corpus

insieme delle sue parole tipo

  • vocabolario: insieme parole tipo
  • lessico:
    • repertorio di tutte le parole possibili di quella lingua (o conosciute dal parlante)
    • insieme potenzialmente infinito di parole
  • dizionario
    • repartorio di lemmi e forme flesse di una lingua selezionato per qualche scopo

Classe di frequenza di parole tipo che ricorrono in un testo in numero uguale di volte. Classi di parole tipo che condividono la stessa frequenza nel testo.

  • classe 1, abax

tendenza generale per qualunque tipo di testo che gli abax siano molto più numerosi

(vedi slide)

analisi classe di frequenza

risponde alla domanda: il token X ricorre tot volte

spettro di frequenze

quante sono le parole con frequenze alte, basse, etc?

inidi statistici del testo

  • rapporto tipo-unità: (Type Token Ratio): ricchezza lessicale come funzione del numero di parole diverse (valore basso=testo ripetitivo, valore alto=testo non ripetitivo).

Utile per distinguere il genere letterario ad esempio (testo di narrativa o specialistico etc) Tendenzialmente è un buon indicatore la dimensione dell’abax, per valutare la produttività del morfema.

Employee e worker, er è più produttivo di ee infatti ne vediamo molti di più sostantivi che derivano dal verbo con suffisso er. Quindi uso la statistica descrittiva, contando gli abax nel mio campione e faccio una inferenza sulla lingua.

frequenza cumulata

(slide)

Es. testo di chimica e di diritto, una grossa percentuale del vocabolario è identica. Cioè i tratti distintivi dei testi sono molto rari perché la maggior parte sono comuni. Ma elementi rari sono anche: caso, rumore, errori di ortografia.

# stampa i token e le occorrenze

$ sort input_token | uniq -c

# stampa i token e le occorrenze ordinate per le più frequenti
$ sort input_token | uniq -c | sort -nr > input_freq

# stampa i token e le occorrenze ordinate per le più frequenti
$ wc input_token
  N token

# stampa in numero di parole tipo
$ sort input_token | uni | wc
  N parole tipo

(vedi slide)

Scarica il MarkDown