MULTILADA

ASR-narracje

 
 

Czym jest automatyczna transkrypcja mowy?

Automatyczna transkrypcja mowy (ang. Automatic Speech Recognition, ASR) to technologia, która umożliwia przekształcanie wypowiadanych słów na tekst pisany. Dzięki wykorzystaniu sztucznej inteligencji i zaawansowanych algorytmów, systemy ASR potrafią rozpoznawać mowę w czasie rzeczywistym, znacząco skracając czas potrzebny na ręczne przepisywanie nagrań.

 
 

Dlaczego to ważne?

Dziecięce opowiadania (narracje), tworzone na podstawie starannie dobranych bodźców, stanowią niezwykle cenne narzędzie zarówno w badaniach nad rozwojem języka, jak i w praktyce terapii logopedycznej. Jedną z głównych barier stosowania narracji w praktyce edukacyjnej i diagnostycznej jest ich czasochłonna transkrypcja oraz złożony system oceny. Oba te problemy mogą pomóc rozwiązać technologie automatycznego rozpoznawania mowy (ASR) i AI. Niedawno w MultiLADZIE rozpoczęliśmy prace nad testowaniem i adaptacją istniejącego narzędzia do automatycznej transkrypcji i analizy dziecięcych narracji po polsku opartych na zadaniu Multilingual Assessment Instrument for Narratives (MAIN; https://main.leibniz-zas.de).

 

Zespół

Pracami kieruje dr Karolina Muszyńska, a w skład zespołu wchodzą: Kacper Chojnacki (analiza WER i CER), Katsiaryna Ilkevich (czyszczenie danych, przygotowanie danych do analiz), Kajetan Siwek (czyszczenie danych, przygotowanie danych do analiz), Hanna Borek (czyszczenie danych, przygotowanie danych do analiz), Zuzanna Krzyżanowska (czyszczenie danych, przygotowanie danych do analiz), Zuzanna Broja (czyszczenie danych, przygotowanie danych do analiz), i inni studenci Cognitive Science UW. 



 

Prace realizowane są w ramach przedsięwzięcia Multilingualism Research Hub

– umiędzynarodowienie badań w ramach Działania II 3.7. "Wielojęzyczność" pod kierownictwem prof. Agnieszki Otwinowskiej-Kasztelanic z Wydziału Neofilologii Uniwersytetu Warszawskiego.

Ułatwienia dostępu