[LC] I corpus


revisioni

corpora e linguistica computazionale

vedi slide fare un corpus è scienza, non ci sono modi matematici che ci dicono come selezionare e cosa. Ma è un’opera d’arte (artigianato) legata a vincoli pragmatici

dagli anni ‘50 ci sono due vie una di creazione di regole grammaticali algoritmiche e parallelamente la digitalizzazione dei corpora. Solo negli anni ‘90 si incontrano con la rivoluzione empirista del Natural Language Processing empirico, statistico, machine learning e deep learning (è sempre un metodo di apprendimento come gli altri solo usa reti neurali) (Charniak, Church, et al.).

tipologie corpora

non esistono corpus perfetti ma vanno conosciuti e studiati in base ad alcuni parametri (vedi libro e slide).

lista…

generalità:

  • corpus specialistico: orientato alla descrizione di varietà del linuaggio in un ristretto uso
  • corpus generali o di riferimento

modalità

  • corpus scritto
  • corpus parlato
  • corpus misto
  • speech database
  • corpus multimediali

cronologia e lingua

  • corpus sincronico
  • corpus diacronico
  • corpus monolingue
  • corpus bi/plurilingue: parallelo (ad es. stesso libro Harry Potter tradotte in più lingue), comparabile (non uguali ma stesso genere etc)

integrità e codifica dei testi

  • codificati: arricchiti con etichette o codici che rendono espliciti vari tipi di informazioni tipo la struttura
  • annotati: le informazioni sul testo riguardano la struttura linguistica a livelli diversi di rappresentazione morfologica, sintattica, semantica. Tipo se usa un markup.

come linguisti noi siamo interessati alle informazioni annotate, come se fosse una codifica però delle informazioni linguistiche non sulla struttura (come ad esempio ai filologi)

dimensione dei corpus

numero di parole: token, in genere meglio sono meglio è, quindi si tende sempre più ad aumentare e ci sono delle ragioni matematiche che rendono necessario questo atteggiamento. I primi tipi di corpus elettronici del 1970 milioni, 80-90 decine di migliaia, 00 centinaia di migliaia, oggi miliardi.

  • Prima generazione: brown corpus creato alla brown university (Francis e Kucera) tratto dalla bibliotec, era di un milione di parole ed era un corpus di riferimento della lingua americana ed era molto vario. Era organizzato in domini tematici, in testo semplice.

  • Seconda gen:

    • british english 91-94, creato da un consorzio accademico (oxford, lancaster, etc) 10 milioni di token

    • italiano: 2004 SSMLiMIT forlì, unibo la repubblica, 326 milioni di parole, corpus opportunistico perché non era l’italiano ma prendeva cose da la repubblica che era molto specifico come struttura ma come temi molto vario. È il primo corpus annotato, non corretto a mano ma fatto in modo automatico (può contenere errori). Ci si aspetta che statisticamente ci siano meno errori quanto più dati ma è sempre presente una esorta di rumore.

corpus paralleli

european parliament proceedings parallel corpus (96-2011), atti estratti dal parlamento europeo, 21 lingue diverse (inglese scelta come lingua pivot, anziché fare tutte le possibili coppie), sezione italiana circa 52 milioni di parole. Come Repubblica è mono-genere ma pluri-tematico. Finalizzato alla traduzione automatica statistica. Parallelo perché usa il pivot. Esistono allineamenti sia di frasi ma anche di parole.

corpus specialistici

switchboard corpus (92) CHILDES: database di interazione conversazionali di bambini in fase di apprendimento linguistico di osoggetti con patologie del linguaggio (leggi slides).

corpus diacronici

sono meno appetibili a livello commerciale MIDIA (italiano, unito, circa 7.5 milioni di token, XII-XX secolo, cronicamente ampio -> token molto piccoli), TLIO (tesaurus lingua italiana delle origini, dalle origini fino a Boccaccio). Voci della grande guerra, qui a pisa, 1 milione di parole.

corpus oggi

  • parlato trascritto
  • corpora audio, multilingue, diacronici e specialistici
  • (leggi slides)

collezioni agenzie

language data consortium, european language resources association, sketchengine a pagamento ma contiente tantissimo materiale.

Tullio de mauro: l’italiano è nato nelle trincee.

il corpus come campione

non ci interessa addestrare un motore di apprendimento automatico per un determinato corpora ma sulla lingua in generale. Il corpus è il campione di una cosa più ampia. non importa quante volte sta nel corpus una parola ma capire quanto è frequente in italiano. Io applico un’inferenza (se il corpus è davvero rappresentativo dell’italiano) dicendo che la lingua è fatta come il corpus.

corpus e rappresentatività

per esere rappresentativo di una lingua o verietà un corpus deve tenere traccia dell’interno ambito di variabilità dei suoi tratti e proprietà: un modello in scala della lingua.

corpus specialistici

  • varietà ristretta della lingua di un autore
  • domini linguistici settoriali (gerghi vari, etc)
  • testi che appartengono a certi generi (sms bollettini meteo, notiziari etc) La variabilità interna limitata e l’elevata omogeneità linguistica garantiscono la possibilità di ottenere un alto grado di rappresentatività, perché l’insieme universo cui si fa riferimento è più ristretto (a piacimento certe volte).

corpus generali

devono essere diversificati (bilanciati, 200milioni di parole di uno stesso tipo testuale non costituiscono un corpus di rif per una lingua)

corpus bilanciati:

  • testi che coprono le diverse varietà testuali e linguistiche della popolazione
  • presuppongono la creazione di una mappa che fornisca una descrizione accurata della popolazione linguistica di riferimento
    • confini spaziali e temporali (testi inclusi o esclusi dnella popolazione)
    • tipologia dei testi (articolazione in strati della popolazione)
  • random sampling di testi appartenenti alle varie categorie individuate nella popolazione

British National Corpus: standar de facto per i criteri di bilanciamento:

  • lingua scritta

    • dominio (scienze, arte, pensiero, economia e finanza, ecc)
    • medium (libri, girnali, brochures, lettere etc)
  • lingua parlata

    • selezione demografica
    • selezione contestualizzata (conferenze, discorsi pubblici, etc)

COLFIS (SNS) corpus di 3.800.000 parole, italiano scritto bilanciato in modo a essere rappresentativo dell’italiano effettivamente letto dai parlanti

  • basato su statistiche istat delle abitudini di lettura degli italiani

composto da:

  • 50% quotidiani
  • 33,3% periodici (settimanali più rappresentati dei mensili)
  • 16,7% libri (argomenti selezionati in maniera da rappresentare le pref. dei lettori)

Scarica il MarkDown