Claudio Marazzini
Il testo in rete: consultazione, interrogazione o
possesso?
Nella
fase iniziale della progettazione della Biblioteca Italiana Telematica, alla
quale chi scrive ebbe occasione di partecipare, un problema si pose con
particolare impellenza: si trattava di stabilire la libertà che avrebbe avuto
il pubblico nel mettere mano alle risorse che avremmo affidato alla Rete.
L’articolo 9 dello Statuto del Ci-Bit [http://cibit.humnet.unipi.it/] lascia
trapelare questa preoccupazione, anche se in maniera tale da risultare evidente
soprattutto (o solo) agli occhi di coloro che hanno partecipato a quel
dibattito. La Biblioteca Telematica, in quella fase, si proponeva di realizzare
concordanze consultabili via Internet. L’uso di una concordanza non viola alcun
diritto di proprietà. Il problema della proprietà si pone invece nel momento in
cui la fabbricazione di una concordanza implica l’allestimento di un testo
utilizzabile anche a fini editoriali specifici e mirati. Non si tratta quindi
di un problema legato ai testi di maggior diffusione della nostra letteratura,
come ovvio, testi che ormai sono facilmente reperibili senza vincoli e senza
difficoltà in vari siti (uso “sito”
appunto nell’accezione dell’Informatica, come “luogo della Rete”). La questione
sembrava e sembra riguardare piuttosto i testi rari e di difficile reperimento,
adatti a pubblicazioni accademiche o a collane specialistiche, oltre a quelli
di autori recenti e recentissimi, ancora coperti da diritto d’autore, e anche
classici ripresentati in edizioni moderne, edizioni critiche o comunque
innovative per la speciale cura filologica dedicata all’opera. Tralasciamo il
problema degli scrittori interessati ai loro diritti, e concentriamo la nostra attenzione
sui testi del passato, liberi da diritti, ma offerti al lettore rinnovati, in
edizioni recenti. Non è un caso che la Rete sia piena di classici offerti in
vecchie edizioni ottocentesche o primo-novecentesche, che non possono far gola
a nessuno, e talora non sono manco citabili senza rischio. A volte la fonte non
è dichiarata. Mettere in rete significa gettare il materiale nella mani di
tutti, rendere “di pubblico dominio”, con tutti i rischi connessi. A quanto
ricordo, nelle prime riunioni del Ci-Bit, tra gli studiosi più propensi a porre
limitazioni nello “scaricamento” dei testi, c’era un filologo come Livio
Petrucci, il quale, giustamente, si preoccupava dell’impiego libero e
disinvolto non tanto di opere coperte dal diritto d’autore (perché solo
eccezionalmente la nostra Biblioteca manipola testi del genere), ma piuttosto
delle edizioni: si preoccupava cioè del lavoro filologico, non protetto dalla
legge, per cui l’editore deve difendersi da sé, per quanto può. Sul versante
opposto, favorevole a difendere la libertà di “scaricamento”, stava Marco
Santagata, che intuiva forse meglio di tutti noi il valore dell’operazione che
volevamo compiere trasferendo in Internet il patrimonio dei testi italiani, la
“biblioteca”. Ma per chi sarebbe stata questa biblioteca, e in che forme
sarebbe stato garantito l’accesso? Nel nostro caso, l’accesso era previsto per
tutti gli utenti, liberamente. Non è sempre così. Anzi, vediamo subito in che
modo può presentarsi la possibilità di ricorrere alle risorse testuali in
Internet.
Al
primo posto collocheremo quelle collezioni che permettono non solo il libero
accesso di tutti gli utenti, ma inoltre concedono lo “scaricamento” senza
alcuna formalità, senza nemmeno la compilazione di un questionario o il
deposito di un indirizzo email (da
questo punto di vista, quanto alla minuzia del questionario, nessuno batte l’Order form del Oxford Text Archive [http://ota.ahds.ac.uk/], che può davvero essere
preso a modello per chi voglia utilizzare una distribuzione gratuita, sì, ma
cauta, del materiale messo a disposizione). Quanto alla massima apertura, senza
questionari e senza formalità di sorta, affidata alla buona fede degli utenti,
l’esempio più noto è Liber Liber - Progetto Manuzio (la collezione non è
composta solo di testi italiani: ma essi sono in larghissima maggioranza) [http://www.mclink.it/com/liberliber/info/index.html#appello
e http://www.liberliber.it/biblioteca/],
a cui si affiancano altri siti da cui si può attingere con larghezza (magari
aperti da operatori didattici e da persone di cultura che hanno agito di
propria iniziativa, nella quasi totale solitudine), come la Biblioteca Autori e Opere della Letteratura
Italiana del prof. Giuseppe Bonghi [http://www.fausernet.novara.it/fauser/biblio/].
Per temi diversi, per la patristica e i testi sacri, si può ricorrere
liberamente a NET-Orion [http://www.bno.urbe.it/ita/docecl/index-ita.html], alla
Biblioteca Augustana [http://www.fh-augsburg.de/~harsch/a_chron.html]
e ad altri siti del genere. Liber Liber, si noti, non è un’iniziativa accademica, ma un’associazione senza fini di
lucro, una curiosa e nuova forma di azione collettiva caratterizzata dalla
collaborazione di un’estesa platea di dilettanti, nobilmente impegnati negli
obiettivi dichiarati dall’associazione, all’insegna del motto «la cultura a
disposizione di tutti». I testi prodotti da questa iniziativa costituiscono ormai
un corpus ragguardevole e utile. La
facilità di accesso (unita a una buona funzionalità tecnica) ha richiamato
l’attenzione su questo sito. Le scelte, proprio perché casuali, mai
sistematiche, per quanto estemporanee, permettono talora incontri interessanti,
anche in campi in cui siamo già esperti. Il servizio è dunque utile. Un
progetto organico dei testi da mettere in rete, tuttavia, qui non c’è.
Simile
a Liber Liber per l’appello alla
collaborazione di tutti gli utenti di buona volontà è la francese ABU
(“Associacion des Bibliophiles Universels”) [http://abu.cnam.fr/].
Lo “scaricamento” è libero anche nel sito Nuovo
Rinascimento [http://www.nuovorinascimento.org/],
dove però la collaborazione per immettere i testi resta riservata agli specialisti,
anche in relazione al corpus qui
raccolto, di interesse accademico, per studiosi esperti. Il sito Duecento [http://www.silab.it/frox/200/index.htm]
offre testi antichi in versi, dall’Indovinello Veronese fino a Dante e allo
Stil Novo (stranamente, però, l’aggiornamento non è curato: non sono stati
inseriti i due antichissimi e importanti componimenti poetici di provenienza
ravennate scoperti da A.Stussi, pur già tempestivamente inseriti nella LIZ 4).
E’ possibile acquisire con (modico) pagamento l’intera corpus di Duecento,
su disco, per l’installazione nel PC: questa opportunità, però, si aggiunge
all’utilizzazione libera, e non la ostacola.
All’estremo
opposto, in contrasto con questa libertà, stanno gli accessi riservati a un
gruppo ristretto di utenti, o comunque organizzati in modo da escludere gli
utenti comuni. Il caso più notevole è quello dell’ARTFL (American and French Research on
the Treasury of the French Language) [http://humanities.uchicago.edu/orgs/ARTFL/]
franco-americano, nel sito dell’Università di Chicago. Il cuore di questo sito
è la grande collezione di oltre duemila testi della tradizione linguistica
francese, di cui tutti possono scorrere i titoli, ma la cui consultazione è
riservata a un consorzio di enti fondatori o di iscritti paganti. L’ARTFL è
diventato ormai un vero portale per accedere a una lista ricchissima di
iniziative che non si limitano alle collezioni di testi elettronici. Se si
scorrono le molte voci, si incontra una miscela assai diversa di libertà e di
restrizioni. Restano aperti a tutti alcuni collegamenti di carattere più
specifico, forse seguendo una linea che promuove mediante il libero accesso
quello sembra avere più necessità di farsi conoscere, in quanto coinvolge un
numero minore di utenti. L’accesso è libero alla Bibbia di Ludovico II, ai pamphlets della Rivoluzione francese,
alla bella mostra delle edizioni dantesche, mentre sono protetti gli accessi
non solo al grande archivio della letteratura francese, ma anche a quello della
poesia provenzale, dell’Encyclopédie
di Diderot e D’Alembert, dei Testi dell’antico francese (TEA), del Voltaire
elettronico. L’alternanza di libertà e restrizioni continua nella pagina
straordinariamente ricca delle “collaborazioni” dell’ARTFL, le quali
interessano settori che vanno dall’antico italiano fino alle lingue orientali,
alla storia americana e francese, con sortite nel campo della lessicografia,
dove, anche se non è permesso a tutti il pieno accesso al testo, al full-text, la semplice consultazione
resta pur sempre utilissima, visto che troviamo qui il dizionario francese di
Nicot del 1606, utilizzabile da solo o anche in contemporanea a tre edizioni
del Dictionnaire de l’Académie Française
(Ia ed. 1694, 5a ed. 1798, 6a ed. 1835) [http://www.lib.uchicago.edu/efts/ARTFL/projects/dicos/, e
anche, per le edd. 1694 e 1835, http://www.chass.utoronto.ca/~wulfric/academie/].
Per restare nel campo della lessicografia, ma passando a quella italiana, fino
all’estate scorsa era ancora possibile, attraverso il server della Scuola
Normale di Pisa, la consultazione all’edizione 1612 del Vocabolario della
Crusca [http://rutelio.cribecu.sns.it/~dianella/Vocabolario/pages_html/introduzione.html]
in forma sperimentale, in attesa del cd-rom
in preparazione da parte dell’Accademia della Crusca; ma ora vedo che
questo motore di ricerca non risponde più, non so se per collasso momentaneo o
definitivo.
La nostra
ricognizione mostra che in certi casi le restrizioni riguardano il full text, mentre la semplice
consultazione resta più libera. Ovviamente si presuppone (non a torto) che a
consultare siano esclusivamente gli studiosi, mentre il full-text potrebbe essere sfruttato per usi commerciali da parte di
editori o tipografi. Vi è quindi una differenza sostanziale tra diversi tipi di
accesso ai testi, che risultano i seguenti: 1. la consultazione; 2. la lettura
parziale; 3. la piena lettura con “scaricamento”. Tralasciamo quest’ultima, di
cui già abbiamo parlato descrivendo la distribuzione di Liber Liber, e soffermiamoci sulle prime due. Vi sono siti come
quello della Biblioteca Italiana
Telematica in cui l’acceso è libero, a differenza dell’ARTFL; lo scopo è l’interrogazione, mediante la compilazione di una
scheda articolata in campi. E’ possibile anche la lettura (di singole parti),
ma come funzione secondaria, sia dopo l’accesso al testo mediante
l’interrogazione, sia con l’accesso mediante un indice. Lo scaricamento non è
reso possibile (anche se il progetto della Biblioteca
Italiana Telematica prevede una pagina con questa funzione, per ora
inattiva). E’ vero che la lettura, attraverso il montaggio dei brani letti in
successione, potrebbe avere come esito la riproduzione totale del testo,
proprio ciò che a priori si vorrebbe impedire, ma tale aggiramento delle regole
comporta un lavoro molto lungo, non vantaggioso per l’utente indisciplinato. In
sostanza il download è fortemente
scoraggiato, non impedito totalmente; però realizzarlo comporta il superamento
di seri ostacoli. Il problema, insomma, si pone un po’ come nei testi su cd-rom della LIZ, e infatti, non
a caso, il “motore” della Biblioteca Telematica è appunto una versione adattata
del DBT della LIZ, il noto programma di interrogazione realizzato
in DOS da Picchi diversi anni fa, successivamente evolutosi in modo da
integrasi nell’epoca di Windows. Si tratta di un programma che ha tanti nemici
quanti sono gli estimatori. Esso non ha dato la miglior prova di sé in
Internet, ma a mio giudizio resta ancora il metodo più raffinato di
interrogazione di un testo, migliore rispetto ai suoi concorrenti, specialmente
se viene utilizzato su cd-rom anziché
in rete, e se lo si usa nel proprio PC, su dati trattati dal programma medesimo
e trasformati in concordanze, le quali non sono solamente lessicali, visto che
l’interrogazione può avvenire anche attraverso la sintassi, in base alla
posizione delle parole e alla punteggiatura della frase, oltre che attraverso
le “co-occorrenze statistiche”. Sono convinto che DBT resti un programma
formidabile, anche se in Internet, accanto alla flessibilità
dell’interrogazione, entrano in gioco altri elementi, e prima di tutto la
velocità, la prontezza della risposta. Tutti coloro che hanno usato la versione
DBT del Ci-Bit ne hanno verificato la debolezza, che consiste nella
lentezza, e nella necessità di disabilitare una serie di protezioni di Windows, ciò che rischia di entrare in
contraddizione con l’uso reale della rete non solo da parte degli amatori, ma
da parte degli studiosi di tutto il mondo.
Torniamo
al problema della consultazione e della lettura, che abbiamo considerato come
distinti. Veniamo all’OVI, il cui sito è tra i migliori in assoluto [http://www.csovi.fi.cnr.it/]. Il sito dell’OVI,
l’Opera del Vocabolario Italiano, diretta da Pietro G.Beltrami, la cui sede è
presso l’Accademia della Crusca, permette la consultazione delle voci del TLIO,
il Tesoro della Lingua Italiana delle
Origini. La consultazione è libera per tutti [http://www.csovi.fi.cnr.it/frame.htm].
Vi si accede man mano che le voci stesse vengono elaborate. Ne deriva lo
straordinario vantaggio di avere a disposizione le voci prima che sia concluso
il lavoro di una singola sezione alfabetica, come accadrebbe invece nel caso
della stampa tradizionale. Chiunque può consultare le ormai circa mille voci
dell’Ovi messe in rete, mentre la consultazione del corpus dei testi sui quali il Tesoro
viene realizzato è condizionata all’appartenenza all’ARTFL (visto che il server che gestisce il corpus è situato a Chicago, ben lontano
da Firenze sede dell’OVI), oppure è subordinata a una registrazione specifica e
all’assegnazione di una parola di accesso, che per altro viene rilasciata, per
quanto ne so, con generosa larghezza [http://www.lib.uchicago.edu/efts/ARTFL/projects/OVI/pwrest/search.form.html]. Un
altro caso di generosa larghezza, anzi di libertà assoluta nella consultazione
(non certo nell’asportazione dei testi!), si ha nella collezione di commenti
danteschi del Dartmouth Project
[Dartmouth Dante Project - Basic Search: http://dciswww.dartmouth.edu:50080/?&&&7&s].
Si tratta di una
consultazione preziosa, che dà l’accesso ai seguenti commenti (riprendo
l’elenco dalla General Information che sta nelle istruzioni d’uso), con
un unico neo, cioè che la recente maschera per interrogazione mediante WWW
risulta persino meno intuitiva del vecchio sistema FTP prima in uso:
Jacopo Alighieri+ [jacopo], 1322 Jacopo della Lana [lana], 1324-28 Guido da Pisa+ [guido], 1327-28 L'Ottimo commento [ottimo], 1333 Anonimo selmiano+ [selmiano], 1337 Pietro di Dante [pietro], 1340 Codice cassinese [cassinese], 1350[??] Giovanni Boccaccio+ [boccaccio], 1373 Benvenuto da Imola [benvenuto], 1380 Anonimo fiorentino [fiorentino], 1400 Giov. da Serravalle [serravalle], 1416-17 Guiniforto+, 1440 Vellutello*, 1544 [through Purg. 10] Castelvetro+, 1570 Daniello, 1568 Venturi, 1732 Lombardi, 1791-92 Portirelli, 1804-05 Costa, 1819-21 Tommaseo, 1837 [ed. of 1865]Longfellow*, 1867 [through Purg. 33]
Greg. Di Siena+ [siena], 1867
Bianchi, 1868 [1844] Scartazzini, 1874-82 [2nd ed., 1900]Berthier, 1892-97
Tozer, 1901 Ruskin, 1903Torraca, 1905
Grandgent, 1909-13 Mestica, 1921-22 [1909] Casini-Barbi, 1921 Steiner, 1921 Del Lungo, 1926 Scartazzini-Vandelli [vandelli], 1929 Grabher, 1934-36 Trucchi, 1936 Pietrobono, 1946 [1924-30] Momigliano, 1946-51 Porena, 1946-48 Sapegno, 1955-57 Chimenz, 1962 Fallani, 1965 Padoan+, 1967 Giacalone, 1968 Singleton, 1970-75 Bosco-Reggio, 1979 Pasquini-Quaglio, 1982
Per
ogni passo della Commedia è possibile
confrontare quanti commenti si vogliono, scorrendo in questo modo la tradizione
degli studi e delle interpretazioni dantesche. I commenti danteschi sono legati
anche a un’altra iniziativa informatica, la pubblicazione su cd-rom, da parte della Lexis [http://www.lexis.it/html/dannew.htm], oltre
che alla pubblicazione cartacea nell”Edizione nazionale dei Commenti Danteschi”
della Salerno Editrice di Roma [http://www.salernoeditrice.it/collane/ednazdante.htm]. In
questo caso, tuttavia, la collezione del Dartmouth
Project ha il rilevante vantaggio della disponibilità immediata e del costo
ridotto a zero.
Dal confronto
tra il Ci-Bit e l’Ovi, o meglio il corpus
del TLIO, così come si consulta ora sul server ItalNet, e dall’esame della
collezione di commenti danteschi del Dartmouth
project, può derivare
qualche altra riflessione sul modo in cui dovrebbero essere composti i corpora elettronici. Un corpus conta quanto più è ampio,
garantito nella qualità (questo è ovvio), ma allo stesso tempo omogeneo e
finalizzato in maniera specifica (non a caso gli homogeneus corpora sono vanto della collezione “Archivio Italiano”
della Lexis, però su cd-rom, non
esposti alla libera consultazione in rete [http://www.lexis.it/html/ai.htm]). Un corpus specifico ha maggiore possibilità
di servire a scopi mirati, può essere utilizzato più facilmente dallo
specialista, per quanto lo specialismo trasportato nella Rete, agli occhi di
alcuni, appaia come un difetto. In ogni modo non vi è dubbio che tocca a noi
accademici difendere la specializzazione, tanto più che di divulgazione ce n’è
fin troppa, in Internet. Tocca a noi tener conto del fatto che un corpus meno vasto, ma ben finalizzato,
ha maggior utilizzabilità scientifica di uno vasto ma generico, impreciso nei
suoi confini. E’ quanto si può verificare nei corpus del TLIO, così come nella collezione dei commenti danteschi,
praticamente completa, anche se si tratta in entrambi i casi di collezioni di
dati selettive, o per l’arco cronologico limitato, o per il tema, settoriale e
circoscritto.
Vi è
un’altra caratteristica molto importante, per chi operi in Internet: la
velocità. L’affermazione è banale. A nessuno piace attendere di fronte al
video, o trovarsi con il programma bloccato. La constatazione è banale, dicevo,
ma in ogni modo ha occupato molto tempo nelle riunioni della nostra Biblioteca Telematica, poiché ci siamo
trovati a lavorare con un programma bello e sofisticato, ma (secondo
l’esperienza nostra e di molti), non di rado poco funzionale. In seguito sono
emerse altre difficoltà tecniche. Credo si possa dire che il Ci-Bit si sta
progressivamente allontanando dal DBT. Questo creerà senz’altro
scompensi, anche perché nel corso del tempo si sono profilati per il nostro
comune lavoro obiettivi diversi. Mi riferisco all’interesse crescente per la
codifica TEI [http://www.hcu.ox.ac.uk/TEI/;
per informazioni tradotte in italiano, ci si colleghi a http://rmcisadu.let.uniroma1.it/crilet/sgml/teiu5-it/split/teiu5-it-Contents.html,
oppure a http://rmcisadu.let.uniroma1.it/crilet/sgml/teiu5-it/split/teiu5-it.html]. La
codifica TEI non è assistita (per ora) da programmi di interrogazione
paragonabili al DBT. La codifica TEI si preoccupa di trasferire
informazioni e di elaborare una raffinata quanto illimitata casistica di
soluzioni complesse senza usare un formato “proprietario”, come si usa dire,
cioè senza adoperare un formato appartenente a una casa di software.
Io
credo che chi usa il computer a scopi
accademici non debba necessariamente e obbligatoriamente prescindere dai
programmi più diffusi, noti a tutti e facili da usare. Io sono convinto che non
sia meno scientifico un testo digitalizzato usando un programma di scrittura,
in formato RTF o DOC, quando la trascrizione sia ben fatta, e quando una nota
al testo spieghi i criteri a cui si è attenuto il curatore. Il fascino della
codifica TEI sta tuttavia nel suo proporsi come soluzione onnirisolutiva e come
standard internazionale. Questi
obiettivi tuttavia, per ora, si legano alle speranze e nelle profezie di
un’associazione di adepti, più che al primato raggiunto davvero al servizio
degli studiosi.
Le
nostre bibliografie cominciano a dare conto del debito che molti di noi hanno
contratto con i testi elettronici. Basta scorrere la saggistica corrente di
taglio accademico per verificare quanto spesso siano citate opere come la LIZ
(la Letteratura italiana Zanichelli su
cd-rom) [sulla quale cfr. http://www.lexis.it/html/liznew.htm] e
come la Biblioteca Italiana Telematica.
Tutti abbiamo usato e usiamo questi corpora,
anteriori alla codifica TEI. La codifica TEI rappresenta forse il futuro, un futuro
che minaccia di farci ricominciare daccapo, anche se da tale ripensamento
deriva (il dato è innegabile) una riflessione affascinante, un proficuo
approfondimento teorico del rapporto tra file
e testo a stampa. Una delle caratteristiche per far sopravvivere un file è la sua convertibilità, il suo
passare dall’una all’altra piattaforma. Questo sembra essere un altro degli
scopi principali e lodevoli della codifica TEI, ma forse non è un obiettivo
irraggiungibile mediante altri mezzi, a cominciare dai normali programmi di
scrittura, nei quali molte informazioni possono trovar posto mediante
collocazione per luoghi tradizionali, come ci ha insegnato la filologia, nelle
note e negli apparati a piè di pagina. Un’edizione elettronica, come ho detto,
può essere buona o cattiva indipendentemente dalla codifica individuata e
adottata come migliore. Inoltre la codifica TEI si preoccupa molto, forse
troppo, del rapporto con l’edizione a stampa usata come fonte. Si potrebbe
pensare che non è di per sé necessario che il rapporto con il testo a stampa,
con la cosiddetta “edizione cartacea di riferimento”, debba essere sempre così
stretto, anche se mi rendo conto che permangono problemi legati alla necessità
di citare il testo nella forma tradizionale, con il numero di pagina, di riga o
di paragrafo.
Concluderò
con la constatazione che, tra tutte le esperienze di testo sulla rete, quella
che in questo momento mi appare come più utile e affascinante, e della quale mi
servo più spesso, è una diversa da quelle citate fin qui. Parlo di un’altra
iniziativa, ammirevole per la sua grandiosa semplicità, che meglio di altre
segna la continuità con la cultura cartacea e con la tradizione del sapere
trasmesso dalla stampa: mi riferisco a Gallica
[http://gallica.bnf.fr/], la gigantesca
biblioteca elettronica della Bibliothèque
Nationale di Parigi, un’iniziativa che non si limita alla grande tradizione
della Francia, ma si apre all’Europa. Gallica risolve con facilità il problema
del passaggio del libro alla Rete, semplicemente mettendo in Rete le fotografie
dei libri in formato PDF o TIFF, a partire da quelli antichi, dagli incunaboli
e dalle cinquecentine. Ciò facilita una lettura larga e senza ostacoli di un
patrimonio raro e prezioso e rende assai più semplice, in molte occasioni, l’accesso
al libro da parte degli studiosi. Mentre in Italia la scoperta ministeriale
dell’efficienza di stampo “privato” e “aziendale” fa sì che si debbano superare
ostacoli burocratici per ottenere una fotografia non di un manoscritto, ma
persino di una cinquecentina, la Francia mette cinquecentine e incunaboli in
rete, li lascia “scaricare” a piacimento, con il rischio di provocare in noi
un’irrefrenabile desiderio di possesso che travalica le esigenze immediate
delle nostre ricerche. La ricchezza di Gallica
è enorme: viene dichiarato un patrimonio di quindici milioni di pagine. Fra
l’altro, il catalogo offre due prodotti tra loro diversi: la fotografia del
libro (che può essere letta, consultata, ma non interrogata con i motori di
ricerca, o elaborata statisticamente), e l’edizione elettronica, codificata
generalmente in formato TXT.
C’è
ancora un altro tipo di corpus, tra
quelli più recenti, che interessa meno lo studioso di letteratura, ma può
essere qui ricordato perché in esso entra in qualche misura anche il testo
letterario. Pochi mesi fa è stato presentato il progetto CORIS/CORDIS, il
“Corpus di Italiano Scritto” del Centro Interfacoltà di Linguistica Teorica e
Applicata dell’Università degli Studi di Bologna, il CILTA (lo si può provare,
in versione dimostrativa, all’indirizzo http://corpus.cilta.unibo.it:8080/DEMOCORISCorpQuery.html;
per un uso professionale è necessario registrarsi, e da giugno è previsto il
pagamento di una quota). Esso nasce da interessi di tipo linguistico,
lessicografico e statistico, prima di tutto, e ha l’ambizione di diventare, con
100 milioni di parole, il testo di riferimento dell’italiano scritto, con cui
fare i conti ogni volta che si compila un dizionario, che si dà la caccia a un
neologismo, che ci si interroga sulla direzione in cui sta andando la lingua
italiana. Si tratta di avere una risposta scientificamente documentata, là dove
oggi si ricorre alle impressioni o agli appunti personali, o alla consultazione
di strumenti quali i cd-rom con
le annate dei giornali quotidiani (ma il “Corriere della Sera” ha messo in rete
i suoi archivi, che possono interessare lo studioso di lingua e di italiano
contemporaneo: cfr. http://www.corriere.it/globnet/index.shtml).
Ebbene, il CORIS, accanto alla stampa quotidiana e periodica, accanto alla
prosa accademica (cioè saggistica), accanto alla sezione dell’epistolografia o
dei libri di cucina, prevede anche la narrativa (non la poesia, però). La
narrativa dovrebbe essere rappresentata da 25 milioni parole, al secondo posto
nella gerarchia quantitativa del CORIS, quindi con una certa rappresentatività
e un innegabile prestigio, che non sempre è riconosciuto in eguale misura dai
linguisti. In attesa di riflettere con questo strumento su argomenti
fondamentali come il rapporto tra lingua media, lingua d’uso e linguaggio
letterario, potremo andare nel sito del CILTA [http://www.cilta.unibo.it/novita.htm]
almeno per consultare i link, assai
completi, con una serie di risorse relative ai corpora, e più in generale delle risorse testuali in Rete.
tutti i diritti riservati a ©Claudio Marazzini
Intervento al Convegno «“Un’altra rete a mezzo del
mio corso”: progetti (e problemi) per l’italianistica in Internet» – Torino
Multilab – Dams, 26 ottobre 2001