Catalan Speech Recognition Resources

SpeechDat CAR Catalan

The Universitat Politècnica de Catalunya (UPC) and Applied Tecnologies on Language and Speech (ATLAS) have recorded and processed a large oral database inside this project, funded by the Generalitat de Catalunya.

This database contains the recordings of 600 different sessions made with 300 informants. Each  session consists of 119 read phrases and other spontaneous phrases that have been recorded using 4 microphones installed in cars.

 

La Universitat Politècnica de Catalunya (UPC) i Applied Tecnologies on Language and Speech (ATLAS) han enregistrat i processat una gran base de dades oral dins d'aquest projecte finançat per la Generalitat de Catalunya.

Aquesta base de dades comprèn els enregistraments de 600 sessions diferents fetes a partir de 300 informants. Una sessió consisteix en 119 locucions llegides i altres d'espontànies, que han estat gravades mitjançant quatre micròfons instal·lats en cotxes.


Definició del contingut de la base de dadeesDatabase contents definition

Cada sessió consisteix en l'enregistrament de 119 locucions llegides i 10 més d'espontànies. Aquestes últimes només són pronunciades en les últimes 200 sessions. La següent taula mostra el contingut de cada locució:

# ItemContingut del corpus
2 paraules clau d'activació de sistemes per veu
1 seqüència de 10 dígits aïllats
1 número de full (4+ dígits) 7 dígits connectats
1 número de telèfon espontani (9-11 dígits)
3 números de telèfon llegits
1 número de targeta de crèdit (16 dígits)
1 codi PIN (6 dígits)
1 data espontània (aniversari) 3 dates
1 data llegida
1 expressió de data relativa o general
2 frase per a word spotting mitjançant paraules d'aplicació
4 dígit aïllat
1 nom espontani 7 paraules lletrejades
1 lletreig de ciutat
4 paraula real/nom
1 seqüència de lletres per cobertura
1 quantitat de diners
1 numero natural
1 nom espontani 7 noms d'una llista d'access
1 ciutat (espontània)
2 ciutats de les més comunes
2 empreses de les més comunes
1 nom/cognom
9 frases fonèticament riques
1 hora del dia (espontàniea) 2 frases d'hores
1 frase d'hora (amb paraules)
4 paraules fonèticament riques
13 paraules d'aplicació per telèfon mòbil 67 paraules d'aplicació
22 paraules clau de funcions IVR
32 paraules clau de productes de cotxe
2 paraules clau adicionals dependents de llenguatge
10 textos de parla espontània


Informants

El nombre d'informants és de 300 i cada un enregistra dues sessions. Els informants han estat seleccionats mitjançant el següent criteri:

  • Equilibri entre dialectes. S'ha gravat el català oriental (Nord-Occidental i Tortosí­) i el català occidental (Central i Gironí)
  • Equilibri pel que fa al sexe.
  • Equilibri pel que fa a l'edat. Tres grups d'edat 16-30, 31-45, 46-60 han estat igualment representats a la base de dades. 


Figura 3. Dialectes de Catalunya

 

RegióNumero d'informantsNumero de sessionsNumero de sessions (%)
NORTH_WEST 70 140 23.3%
CENTRAL 231 460 76.7%
  301 600 100%


Numero de trucades rebudes per cada regió

Grups d'edatHomesDonesPercentatge del total
InformantsSessionsInformantsSessionsInformantsSessions
18-30 79 157 101 201 59.8% 59.6%
31-45 42 84 34 68 25.2% 25.3%
46-60 19 38 26 52 15% 15.1%
TOTAL 140 279 161 321 100% 100%


Distribució dels informants per grups d'edat y gènere


Format dels fitxers de veu

Al cotxe es graven quatre canals d'àudio d'alta qualitat mitjançant una plataforma mòbil. Les dades s'emmagatzemen en seqüències de 16 bits sense compressió i utilitzant una freqüència de mostreig de 16 kHz.

Cada registre s'emmagatzema en un fitxer separat. Cada fitxer de veu té un fitxer d'etiquetes SAM associat.


Lloc i plataforma d'enregistrament

La plataforma d'enregistrament consisteix en un ordinador portàtil que usa un slot PCMCIA com a interfície per a l'equipament d'àudio. Com a sistema operatiu s'usa Windows XP; la targeta de so en depèn. La UPC ha desenvolupat un programari d'enregistrament específic per a aquest projecte. És possible enregistrar fins a quatre micròfons de manera simultània.

Per a l'enregistrament al cotxe s'han utilitzat quatre micròfons: dos de parla propera (mans lliures) i dos de parla llunyana. Són els següents:

  • Sennheiser ME104
  • Nokia Lavalier HDC-6D
  • AKG Q400 Mk3 T
  • Peiker ME15/V520-1

Els dos primers micròfons són de parla propera i es col·loquen sobre l'informant mateix, mentre que els altres dos són de parla llunyana i s'instal·len a prop del retrovisor interior del cotxe.

El procediment d'enregistrament està completament supervisat per un operador. El procediment per una sessió es fa de la següent manera:

  1. Desconnectar l'equip de la font d'alimentació
  2. Introduir les dades: sexe, edat, codi de l'informant i dialecte
  3. Ajustar els amplificadors segons el nivell de la veu de l'informant. La posició dels amplificadors es manté fixa durant tota la sessió
  4. Començar els enregistraments. L'informant ha de contestar o llegir allò que apareix a la pantalla
  5. L'operador comprova els enregistraments, les mesures de SNR i les formes d'ona del senyal de veu. Pitjant una tecla es pot mostrar de nou el mateix text i repetir-ne l'enregistrament, mentre que pitjant una altra tecla es mostra i s'enregistra un nou text.
  6. Al final dels enregistraments, l'operador els desa


Condicions d'enregistrament

Hi ha definides 7 condicions d'ambient. Cada ambient està igualment representat a la base de dades final.

  1. cotxe aturat amb el motor en marxa
  2. cotxe en tràfic urbà
  3. cotxe en tràfic urbà, amb condicions sorolloses
  4. cotxe circulant a baixa velocitat en condicions de carretera rugosa -> carretera, fora de carreteres urbanes
  5. cotxe circulant a baixa velocitat en condicions de carretera rugosa -> carretera, amb condicions sorolloses
  6. cotxe circulant a alta velocitat en condicions de bona carretera (asfalt llis) -> autopista

A més, s'ha recopilat altra informació durant els enregistraments:

  • Condicions meteorològiques: pluja, cel clar, vent, etc...
  • Accessoris utilitzats durant els enregistraments: neteja parabrises, ventilació, ventilador, radio
  • Estat de funcionament del ventilador: apagat, baix, mitjà, alt

 

 

EntornSessionsPercentage (%)
Aturat 134 22.3
Ciutat 139 23.2
Ciutat amb soroll 33 5.5
Velocitat reuida 167 27.8
Velocitat reduida amb soroll 30 5
Velocitat moderada 97 16.2
Total 600 100


Distribució de trucades per entorn de gravació


Transcripció

La transcripció la ha dut a terme l'empresa ATLAS. Està inclosa en aquesta base de dades i la característica principal és que és ortogràfica i lèxica amb alguns detalls que representen sorolls audibles (veu i no-veu) presents en els corresponents senyals d'àudio. Les marques extres contingudes en la transcripció ajuden a interpretar el text de la frase. Les transcripcions es fan en dos passos: un primer pas en el qual es transcriuen les paraules i un segon pas on s'afegeixen els detalls addicionals.

Les marques extres s'utilitzen per a males pronunciacions, paraules inintelligibles i sorolls. Els símbols pels sorolls són:

[fil]: Pausa sonora.
Aquests sons es poden modelar bé en un model de pauses sonores en reconeixedors de veu. Alguns exemples son: uh, um, er, ah, mm.
[spk]: Soroll d'informant.
Tots els sorolls i sons fets per l'informant i que no formen part del text preparat com soroll de llavis, tossir, aclariment de la gola, clicks amb la llengua, respiració sorollosa, riures,...
[sta]: Soroll estacionari
Aquesta categoria conté sorolls de fons que no són intermitents i tenen un espectre d'amplitud més o menys estable. En són exemples el soroll de cotxe, soroll de carrer, soroll de canal, GSM, veus de fons, soroll de fons de llocs públics, ....
[int]: Soroll intermitent
Aquesta categoria conté sorolls de naturalesa intermitent. Aquests sorolls típicament ocorren una vegada (cop de porta) o tenen pauses (ring del telèfon), o canvien el seu espectre amb el temps (música). En són exemples: música, veu de fons, nen plorant, telèfon sonant, cop de porta, campana timbre, paper arrugat, converses creuades.

La base de dades es transcriu mitjançant el programari UPCRevBD.v1, desenvolupat a la UPC. Un 1% de les transcripcions es transcriu dues vegades per a detectar errors. La base de dades final ha estat supervisada i validada per un organisme extern independent.

 

Informació lèxica i fonètica

La documentació inclou un lexicon. El fitxer amb el lexicon és una llista ordenada alfabèticament de les diferents partícules lèxiques (essencialment paraules en el nostre cas) que ocorren en el corpus amb la corresponent informació de pronunciació. Cada paraula diferent té una entrada diferent. Com que el lexicon es deriva del corpus, usa la mateixa codificació alfabètica per a caràcters especials i accentuats com en les transcripcions (ISO-8859). El fitxer inclou també un recompte de freqüència d'aparició per a cada entrada en el lexicon.

Després de la fase de transcripció es genera un lexicon que conté totes les paraules que apareixen en el "LBO:" (una aparició per paraula) ordenades alfabèticament, el seu número d'aparicions, i la seva transcripció fonètica. Les paraules apareixen en el lexicon exactament igual que en la transcripció. Les marques de sorolls, fragments i paraules mal pronunciades no apareixen en el lexicon. El lexicon no conté majúscules.

El programari SEGRE, desenvolupat a la UPC, s'utilitza per a transcriure fonèticament les paraules amb la notació SAMPA. El lexicon es transcriu automàticament. El noms propis i noms d'empreses es faran manualment.


Mostra de veu

Des d'aquí pots baixar el fitxer de veu (Encara no disponible).

Mostra de fitxers de dades

Fitxer d'etiquetes ASCII SAM del fitxer de veu (Encara no disponible).

Paraules d'aplicació

Es poden trobar aquí.

Disponibilitat

La base de dades és pública.
Fitxer de documentació i resultats

Informació: asunciongps.tsc.upc.es

Additional information