Catalan Speech Recognition Resources

SpeechDat Catalan MDB - 2000 speakers

The Universitat Politècnica de Catalunya (UPC) and Applied Tecnologies on Language and Speech (ATLAS) have recorded and processed a large oral database inside this project, funded by the Generalitat de Catalunya. The recordings have been made using an ISDN telephone interface with a sampling rate of 8KHz, 8 bit for each sample andA-law encoding.
The corpus contains the voice of 2000 persons, half of them women and the other half men.
Equivalent corpora have been collected for other European languages.


The corpus has been designed to support the creation of teleservices commanded by voice using mobile telephones. The callers (the persons whose voice is recorded)
spoke 40 items, comprising isolated and connected digits, natural numbers, money amounts, spellings, time and data phrases, confirmation/rejections, forenames and surnames, city names, company names, common applications words, application words in phrases and phonetically rich sentences. Most items are read, some are spontaneously spoken.  The recordings come with extensive and standardised documentation. All speech is carefully transcribed on the orthographic level; in addition, a number of clearly audible non – speech events are included in the transcription. Moreover, age and regional background of the speakers are provided. A pronunciation dictionary is added, containing all words that occur in the corpus, with a corresponding SAMPA broad - class phonemic transcription. The data files are formatted according to the ESPRIT Project SAM standards.

 
 
La Universitat Politècnica de Catalunya (UPC) i Applied Tecnologies on Language and Speech (ATLAS) han enregistrat i processat una gran base de dades oral dins d'aquest projecte finançat per la Generalitat de Catalunya. Els enregistraments s'han fet mitjançant una interfície telefònica RDSI a 8KH de freqüència de mostreig, 8 bits per mostra i codificada amb llei A.

El corpus conté la veu de 2000 persones, la meitat dones i la meitat homes. Corpus equivalents han estat enregistrats per altres idiomes europeus.

El corpus està dissenyat per donar suport a la creació de teleserveis comandats per veu des de telèfons mòbils. Els informants (les persones a qui s'enregistra la veu) pronuncien 44 textos curts, que comprenen dígits aïllats i connectats, números naturals, quantitats de diners, lletreigs, frases de dia i hora, frases de confirmació/rebuig, noms, cognoms, ciutats, empreses, paraules comunes d'aplicació, paraules d'aplicació inserides en frases i frases fonèticament riques. La majoria de les locucions són textos llegits i d'altres són respostes espontànies. Les bases de dades es lliuraran amb documentació extensa i estandarditzada. La veu es transcriu a nivell ortogràfic, i s'hi anoten també un seguit d'esdeveniments clarament audibles (sorolls, respiració,...). L'edat i la regió dialectal de procedència dels informants també queden reflectides en la base de dades. La documentació inclou un diccionari de pronunciació que conté totes les paraules aparegudes en el corpus amb la corresponent transcripció fonètica amb SAMPA. El fitxers de dades tenen el format SAM.

Definició del contingut de la base de dades

Cada trucada de la base de dades conté 44 locucions

# ItemContingut del corpus
6 paraules d'aplicació
1 seqüència de 10 dígits aïllats
1 número de full (6 dígits) 4 dígits connectats
1 número de telèfon (9-11 dígits)
1 número de targeta de crèdit (14-16 dígits)
1 codi PIN (6 dígits) (conjunt de 150)
1 data espontània (aniversari) 3 dates
1 data llegida
1 expressió de data relativa o general
1 frase per a word spotting mitjançant paraules d'aplicació
1 dígit aïllat
1 cognom lletrejat 3 paraules lletrejades
1 lletreig de ciutat
1 seqüència de lletres per cobertura
1 quantitat de diners
1 numero natural
1 cognom (conjunt de 500)
1 ciutat (espontània)
1 ciutat (del conjunt de les 500 més comunes)
1 empresa (del conjunt de les 500 més comunes)
1 nom i cognom (conjunt de 150)
1 pregunta amb resposta predominant 'si' 2 preguntes, incloent si/no difús
1 pregunta amb resposta predominant 'no'
9 frases fonèticament riques
1 hora del dia (espontàniea) 2 frases d'hores
1 frase d'hora (amb paraules)
4 paraules fonèticament riques


Informants

El Català és la llengua parlada a Catalunya, València, Balears i Andorra. També es parla en altres llocs, encara que de forma minoritària, com Rosselló i Vallespir (sud de França), frontera de Catalunya i Aragó, i l'Alguer a Sardenya.

Hi ha una divisió principal entre l'est i l'oest que creua Catalunya i també separa els dialectes de València i Balears. Hi ha una divisió secundària entre el nord i el sud que separa els dialectes de l'est i l'oest de Catalunya dels dialectes de València i Balears (Joan Veny, Els parlars catalans, Edit. Moll, Mallorca, 1993).

En aquesta base de dades es recullen les veus de 2000 informants de Catalunya. Amb el propòsit de forçar una recollida de mostres tan variada com sigui possible, s'ha contemplat una subdivisió al nord de Catalunya amb el Gironí i una altra al sud amb el Tortosí.

El mapa de la Figura 2 mostra las quatre zones dialectals objecte de la cerca d'informants.


Figura 2. Dialectes de Catalunya


Es van gravar 500 informants de Valencia i Balears.

 

RegióNumero d'informantsPercentage del total(%)
HomesDonesTotal
Central 411 435 846 42.3
Gironi 73 126 199 9.95
Nord-Occidental 223 241 464 23.2
Tortosi 72 74 146 7.3
Valencia 110 92 202 10.1
Balear 61 82 143 7.15
Total 950 1050 2000 100


Numero de trucades rebudes per cada regió

 

EdatNumero d'informantsPercentage del total(%)
HomesDonesTotal
menys de 16 4 5 9 0.45
16-30 512 622 1134 56.7
31-45 258 249 507 25.35
46-60 158 152 310 15.5
mes de 60 18 22 40 2
Total 950 1050 2000 100


Distribució dels informants per grups d'edat y gènere


Formats dels fitxers de veu

Els fitxers de veu s'emmagatzemen com seqüències de 8 bits a 8 kHz en llei A sense compressió. Cada registre s'emmagatzema en un fitxer separat. Cada fitxer de veu té un fitxer d'etiquetes SAM associat.


Lloc i plataforma d'enregistrament

Els enregistraments es fan a la Universitat Politècnica de Catalunya. Les característiques principals de la plataforma són:

  • Interfície: RDSI d'accés bàsic
  • Targeta: AVM-ISDN-A1
  • Ordinador: Pentium PC at 120 MHz, 32 MB RAM 4 GBytes SCSI Hard disk. PCI Network card
  • DOS: Windows NT
  • Interfície de programari: COMMON-ISDN-API Version 2.0 (CAPI 2.0)
  • Programari: UPC ADA
  • Línies: 2

Transcripció

La transcripció la duu a terme l'empresa ATLAS. Estarà inclosa en aquesta base de dades i la característica principal és que és ortogràfica i lèxica amb alguns detalls que representen sorolls audibles (veu i no-veu) presents en els corresponents senyals d'àudio. Les marques extres contingudes en la transcripció ajuden a interpretar el text de la frase. Les transcripcions es fan en dos passos: un primer pas en el qual es transcriuen les paraules i un segon pas on s'afegeixen els detalls addicionals.

Les marques extres s'utilitzen per a males pronunciacions, paraules inintelligibles i sorolls. Els símbols pels sorolls són:

[fil]: Pausa sonora.
Aquests sons es poden modelar bé en un model de pauses sonores en reconeixedors de veu. Alguns exemples son: uh, um, er, ah, mm.
[spk]: Soroll d'informant.
Tots els sorolls i sons fets per l'informant i que no formen part del text preparat com soroll de llavis, tossir, aclariment de la gola, clicks amb la llengua, respiració sorollosa, riures,...
[sta]: Soroll estacionari
Aquesta categoria conté sorolls de fons que no són intermitents i tenen un espectre d'amplitud més o menys estable. En són exemples el soroll de cotxe, soroll de carrer, soroll de canal, GSM, veus de fons, soroll de fons de llocs públics, ....
[int]: Soroll intermitent
Aquesta categoria conté sorolls de naturalesa intermitent. Aquests sorolls típicament ocorren una vegada (cop de porta) o tenen pauses (ring del telèfon), o canvien el seu espectre amb el temps (música). En són exemples: música, veu de fons, nen plorant, telèfon sonant, cop de porta, campana timbre, paper arrugat, converses creuades.
[dit]: Tono beep
Aquest soroll es produit per la plataforma de gravacio per a indicar el informat que pot comencar a gravar. El sistema no ha de enregistrar aquest soroll pero si ho fa, deu ser anotat amb aquesta marca

La base de dades es transcriu mitjan?nt el programari UPCRevBD.v1, desenvolupat a la UPC. Un 1% de les transcripcions es transcriu dues vegades per a detectar errors. La base de dades final serà supervisada i validada per un organisme extern independent.


Informació lèxica i fonètica

La documentació inclou un lexicon. El fitxer amb el lexicon és una llista ordenada alfabèticament de les diferents partícules lèxiques (essencialment paraules en el nostre cas) que ocorren en el corpus amb la corresponent informació de pronunciació. Cada paraula diferent té una entrada diferent. Com que el lexicon es deriva del corpus, usa la mateixa codificació alfabètica per a caràcters especials i accentuats com en les transcripcions (ISO-8859). El fitxer inclou també un recompte de freqüència d'aparició per a cada entrada en el lexicon.

Després de la fase de transcripció es genera un lexicon que conté totes les paraules que apareixen en el "LBO:" (una aparició per paraula) ordenades alfabèticament, el seu número d'aparicions, i la seva transcripció fonètica. Les paraules apareixen en el lexicon exactament igual que en la transcripció. Les marques de sorolls, fragments i paraules mal pronunciades no apareixen en el lexicon. El lexicon no conté majúscules.

El programari SEGRE, desenvolupat a la UPC, s'utilitza per a transcriure fonèticament les paraules amb la notació SAMPA. El lexicon es transcriu automàticament. El noms propis i noms d'empreses es faran manualment.


Entorns

El conjunt d'entorns des d'on es fan les trucades és: casa, oficina, vehicle, lloc públic i cotxe utilitzant un sistema mans lliures.

 

Entorn#Homes#Dones#Total
CAR_KIT 45 42 87
PUBLIC_PLACE 272 246 518
STREET 248 279 527
HOME_OFFICE 243 313 556
VEHICLE 139 163 302
OTHER 3 7 10


Distribució de trucades per entorn de gravació

Mostra de veu

Des d'aquí pots baixar el fitxer de veu (Feu click dret i guardar).


Mostra de fitxer de dades

Fitxer d'etiquetes ASCII SAM del fitxer de veu.


Disponibilitat

La base de dades es pública.
Fitxer de documentació i resultats

Informació: asunciongps.tsc.upc.es

Additional information