Projekty finansowane przez NCN


Dane kierownika projektu i jednostki realizującej

Szczegółowe informacje o projekcie i konkursie

Słowa kluczowe

Aparatura

Wyczyść formularz

Głęboka ekstrakcja w celu niezawodnego rozpoznawania mowy

2021/42/E/ST7/00452

Słowa kluczowe:

przetwarzanie sygnałów mowy i audio uczenie maszynowe głębokie sieci neuronowe sztuczna inteligencja statystyczne przetwarzanie sygnałów procesy stochastyczne metody optymalizacyjne analiza mowy zrozumienie mowy

Deskryptory:

  • ST7_007: Przetwarzanie sygnałów
  • ST6_011: Uczenie maszynowe, statystyczne przetwarzanie danych i zastosowania w przetwarzaniu sygnałów (np. mowy, obrazów, filmów)

Panel:

ST7 - Inżynieria systemów i komunikacji: elektronika, komunikacja, optoelektronika

Jednostka realizująca:

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie, Wydział Informatyki, Elektroniki i Telekomunikacji

woj. małopolskie

Inne projekty tej jednostki 

Kierownik projektu (z jednostki realizującej):

dr hab. Konrad Karol Kowalczyk 

Liczba wykonawców projektu: 10

Konkurs: SONATA BIS 11 - ogłoszony 2021-06-15

Przyznana kwota: 1 878 000 PLN

Rozpoczęcie projektu: 2022-11-02

Zakończenie projektu: 2027-11-01

Planowany czas trwania projektu: 60 miesięcy (z wniosku)

Status projektu: Projekt w realizacji

Opis Projektu

Pobierz opis projektu w formacie .pdf

Uwaga - opisy projektów zostały sporządzone przez samych autorów wniosków i w niezmienionej formie umieszczone w systemie.

Dane z raportu końcowego/rocznego

  • Publikacje w czasopismach (2)
  • Teksty w publikacjach pokonferencyjnych (4)
  1. On Ambisonic Source Separation With Spatially Informed Non-Negative Tensor Factorization
    Autorzy:
    M. Guzik and K. Kowalczyk
    Czasopismo:
    IEEE/ACM Transactions on Audio, Speech, and Language Processing (rok: 2024, tom: 32, strony: 3238-3255), Wydawca: IEEE
    Status:
    Opublikowana
    Doi:
    10.1109/TASLP.2024.3399618 - link do publikacji
  2. End-to-End Neural Speaker Diarization With Non-Autoregressive Attractors
    Autorzy:
    M. Rybicka, J. Villalba, T. Thebaud, N. Dehak and K. Kowalczyk
    Czasopismo:
    IEEE/ACM Transactions on Audio, Speech, and Language Processing (rok: 2024, tom: 32, strony: 3960-3973), Wydawca: IEEE
    Status:
    Opublikowana
    Doi:
    10.1109/TASLP.2024.3439993 - link do publikacji
  1. Causal Signal-Based DCCRN with Overlapped-Frame Prediction for Online Speech Enhancement
    Autorzy:
    Julitta Bartolewska, Stanisław Kacprzak, Konrad Kowalczyk
    Konferencja:
    Proc. INTERSPEECH 2023 (rok: 2023, tom: Annual Conf. Int. Speech Communication Association (INTERSPEECH), strony: 4039-4043), Wydawca: International Speech Communication Association (ISCA)
    Data:
    konferencja 20-24 August 2023
    Status:
    Opublikowana
    Doi:
    10.21437/Interspeech.2023-2177 - link do publikacji
  2. Investigation of Whisper ASR Hallucinations Induced by Non-Speech Audio
    Autorzy:
    M. Barański, J. Jasiński, J. Bartolewska, S. Kacprzak, M. Witkowski, and K. Kowalczyk
    Konferencja:
    Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (rok: 2025, tom: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), strony: 45662), Wydawca: IEEE
    Data:
    konferencja 6-11 April 2025
    Status:
    Opublikowana
    Doi:
    10.1109/ICASSP49660.2025.10890105 - link do publikacji
  3. Heightceleb – An Enrichment of Voxceleb Dataset With Speaker Height Information
    Autorzy:
    S. Kacprzak and K. Kowalczyk
    Konferencja:
    Proc. IEEE Spoken Language Technology Workshop (SLT) (rok: 2024, tom: IEEE Spoken Language Technology Workshop (SLT), strony: 857-862), Wydawca: IEEE
    Data:
    konferencja 2-5 December 2024
    Status:
    Opublikowana
    Doi:
    10.1109/SLT61566.2024.10832224 - link do publikacji
  4. Joint Blind Source Separation and Dereverberation for Automatic Speech Recognition using Delayed-Subsource MNMF with Localization Prior
    Autorzy:
    Mieszko Fra´s, Marcin Witkowski, Konrad Kowalczyk
    Konferencja:
    Proc. INTERSPEECH 2023 (rok: 2023, tom: Annual Conf. Int. Speech Communication Association (INTERSPEECH), strony: 3734-3738), Wydawca: International Speech Communication Association (ISCA)
    Data:
    konferencja 20-24 August 2023
    Status:
    Opublikowana
    Doi:
    10.21437/Interspeech.2023-2520 - link do publikacji