[LC] I Corpus 2


revisioni

Rappresentatività

Chomsky: “any natural corpus will be skewed”

Posizione estremista che anche i più ferventi chomskiani non adottano più. I corpus vengono comunque utilizzati adesso, ma le obiezioni che all’epoca erano validissime (corpus di milioni di parole) vale ancora perché la distribuzione dei tratti linguistici per quanto grande sia non può che essere sbilanciato, mancheranno espressioni e costruzioni (o altre in eccesso) rispetto al linguaggio stesso.

Nella teoria del campionamento c’è una soglia limite oltre cui ingrandire il campione non cambia troppo andare oltre per avere delle predizioni perché spesso non ne vale la pena. Con il linguaggio non è così, perché ci saranno sempre molti fenomeni che non riusciamo a prendere.

Ad esempio su sketchengine, se vediamo in posizione post-verbale dopo “strisciare” troveremo “notizia” per via di “striscia la notizia”. Se invece vediamo “prendere” il significato proprio di afferrare, non affiora molto ma tutte le forme verbali d’uso composte, espressioni idiomatiche, tipo: prendere il sopravvento, spunto, confidenza etc. cosa che nei dizionari sarebbe meno dominante. Lo stesso corpus certe volte può dare risultati inconsistenti o interessanti.

«Prendere le redini» difficilmente si riferisce a qualcuno che letteralmente prende le redini, ma è squilibrato anche in questo (come rompere il ghiaccio, prendere una cantonata, etc)

Consapevolezza dello sbilanciamento

Atkins et al 1992: “knowing that your corpus is unbalanced is what counts”

I corpus in teoria devono chiaramente cercare di raggiungere la rappresentività della lingua, ma non è mai del tutto bilanciato, alcuni lo sono entro certi limiti che vanno, appunto, conosciuti.

pragmatismo

Nel momento in cui si vuole sviluppare un modello statistico del linguaggio si accetta l’imperfezione dei corpus e della loro non completa rappresentatività.

(vedi slides) si mette quindi da parte questa visione e se ne fa una più quantitativa.

More data is better data

il web come corpus

si usano motori di ricerca e anziché contare le occorrenze usiamo il numero di hit del motore di ricerca, stimandone le occorrenze in base alle risposte che ci dà in risposta. Le stime di frequenza sui corpus talvolta può non essere realistica, attorno agli anni 2000 si è iniziato ad usare i motori di ricerca dando un miglioramento ai risultati di analisi linguistica.

googleology is bad science

(kilgarriff, 2007)

Smonta l’uso metodologico per usi linguistici di motori di ricerca commerciali come google o yahoo non è affidabile perché:

  • ci si fida di algoritmi proprietari, con specifiche che sono fatte apposta per i loro fini e interessi
  • non sono replicabili, sia tra motori di ricerca sia nel tempo o da chi o dove esegue la ricerca
  • presenza di duplicati
  • si contano solo i risultati della ricerca, non quante occorrenze sono presenti dentro il documento ma quanti documenti spuntano

Si possono quindi usare web crawlers che esplorano dei siti, avendo impostate delle parole chiavi o delle regole, e da lì ne costruisco un corpus (wikipedia, facebook).

  • web 1T 5-gram (google) 1 tera (1000 miliardi di token, dal web)
  • Paisà (corpusitaliano.it) 210 milioni di token
  • It-Wac (Baroni & Ueyama) 1.3 giga token
  • Ten-Ten (SketchEngine) (slide..)

Google Books Corpus

michel et al. 2011 5,2 milioni di libri, dal 1500 a oggi, diacronico e multilingue

Conclusioni

Poco ma bene o tanto concedendosi del rumore? La valutazione del gradi di rappresentativittà del corpus deve essere comunque l’orizzonte di riferimento. Facebook e i social mostrano una buona approssimazione al linguaggio parlato quindi è più rappresentativo per certi tipi di studi perché più spontaneo. E va sempre valutato in che misura i risultati di una analisi o un esperimento possano dipendere dalla scelta e dalla natura dei dati a disposizione.

Codifica digitale del testo

Machine Readable Form, ogni tipologia deve comunque essere codificata in binario, sotto. Esistono codifiche di due livelli:

  • basso livello (o livello 0) rappresentazione binaria della sequenza ordinata di caratteri
  • alto livello Arricchisce il testo codificato al livello zero con informazione relativa a dimensioni linguistiche e strutturali
    • organizzazione del testo in strutture macrotestuali
    • articolazione del testo in strutture linguistiche (sintattiche, semantiche, etc)

Plain text (o txt)

sequenza di bytes che rappresenta un carattere

  • vantaggi formato aperto indipendente da sistema operativo e programma e massima portabilità
  • svantaggi non può rappresentare aspetti relativi a codifica di alto livello (formattazione del testo, informazione linguistica, etc) minima espressività

Codifica di alto livello

  • interpretazione del testo
    • informazioni su struttura, contenuto, presentazione, etc.

(vedi slide)

Perché codificare?

Gerarchia dell’informazione linguistica:

  1. dati linguistici
  2. informazione linguistica
  3. conoscenza linguistica

la codifica di alto livello permette di rendere espliciti e accessibili al computer i livelli di organizzazione strutturale di un testo e lo trasforma in una fonte di informazione linguistica.

parole di un testo -> organizzazione strutturale e linguistica -> conoscenza della lingua -> modelli della lingua

Come codificare?

Linguaggi di marcatura

Coridica di alto livello con linguaggi di mark-up (linguaggi come XML, HTML, MarkDown, etc.):

  • sono solo testo
  • (vedi slide)

Vantaggi: codifica plain text sia di informazione strutturale (testo codificato) sia di informazione linguistica (testo annotato).

Scarica il MarkDown