Neural signitures of syllable and word transitions in speech production

Eustace, Sophie Drew

http://hdl.handle.net/10400.1/29063

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
a85601_Dissertação_Sophie Eustace.pdf		1.23 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Eustace, Sophie Drew

Orientador(es)

Correia, João Mendonça

Resumo(s)

A produção da fala assenta numa organização hierárquica, na qual unidades menores (p. ex., sílabas) se integram em unidades maiores (palavras, frases). Embora esta hierarquia esteja bem documentada na perceção, permanece pouco claro como as dinâmicas neurais diferenciam transições intra-palavra (sílaba-para-sílaba) de inter-palavra (palavra-para-palavra) durante a produção. Neste estudo, examinámos oscilações cerebrais medidas por EEG de alta densidade durante produção de fala rítmica, isolando, em tempo real, as transições em torno da terceira sílaba produzida (pk3). Vinte e um adultos falantes de português europeu participaram; dois foram excluídos por problemas técnicos, resultando em N = 19 (14 mulheres; 18-53 anos). Os participantes produziram pares de pseudopalavras com seis sílabas por ensaio, em dois arranjos equivalentes: 2+4 (palavra dissilábica seguida de palavra tetrassilábica) e 3+3 (duas palavras trissilábicas). O ritmo foi imposto por um metrónomo visual (600 ms), instruindo a emissão de uma sílaba por batida visual. O desenho assegurou que pk3 marcava contextos distintos: uma transição entre palavras no arranjo 2+4 e dentro da palavra no 3+3. Gravámos áudio e EEG (128 canais; BioSemi ActiveTwo) e aplicámos um pipeline de pré-processamento standard (reamostragem, filtragem, rejeição de canais ruidosos, ICA com marcação automática de artefactos e interpolação). O áudio foi transformado para o envelope de amplitude e identificado o pico de cada sílaba (pk1-pk6) para alinhar EEG e produção. As análises centraram-se em épocas de −1 a +1 s em torno de pk3, minimizando contaminação de potenciais preparatórios de início de sequência e mantendo janelas simétricas para as transições pk2-pk3 e pk3-pk4. No nível fonte, estimámos dipolos equivalentes e agrupámos componentes independentes em 20 clusters com base em mapas, espectros e localização (3−40 Hz). As ERSPs (event-related spectral perturbations) foram calculadas por componente e ensaio e depois agregadas por cluster e participante. As estatísticas entre condições recorreram a 2 000 permutações com controlo de múltiplas comparações por FDR de Benjamini−Hochberg (q = .05) nos bins tempo-frequência. A inferência confirmatória incidiu em ROIs corticais derivadas da literatura: circunvoluções frontais inferiores (IFG) bilaterais, circunvoluções temporais superiores (STG) bilaterais e áreas suplementares motoras (SMA). Reportamos, para ilustração, três clusters que exibiram efeitos corrigidos: Cluster 1 (IFG esquerdo), Cluster 3 (IFG direito) e Cluster 8 (STG esquerdo). Os participantes acompanharam o metrónomo com elevada precisão. Ainda assim, as durações entre sílabas refletiram a estrutura lexical: o intervalo pk2–pk3 foi mais curto no 3+3 do que no 2+4 (diferença = −17 ms), t(18) = 2.15, p = .045; o intervalo pk3–pk4 foi mais longo no 3+3 do que no 2+4 (diferença = +29 ms), t(18) = −2.90, p = .010. Estes desvios sugerem que o encadeamento intrapalavra é ligeiramente agilizado, enquanto a travessia de um limite lexical impõe custos adicionais de planificação temporal. No EEG, o IFG direito (Cluster 3) exibiu uma modulação robusta pré-pk3 que se estendeu de ~ -500 a 0 ms, abrangendo ~4−30 Hz (teta/alpha até beta baixa), com maior modulação no 3+3 do que no 2+4 após correção por FDR. Este padrão é compatível com o ajustamento de estados preparatórios frontais consoante o papel hierárquico da sílaba iminente: manutenção do conjunto motor dentro de palavra (3+3) versus reconfiguração à beira de um limite lexical (2+4). No IFG esquerdo (Cluster 1) observou-se uma diferença estatística que incluí frequências em alfa (~10−14 Hz) próximo de -450 ms (i.e., antes da produção da terceira silaba), e no STG esquerdo (Cluster 8), observamos duas diferenças estatísticas significantes: antes da sílaba 3 (~9−11 Hz, -400 a -300 ms) e depois da silaba 3 (~26−30 Hz, 0−100 ms). Não emergiram efeitos corrigidos nas restantes 17 ROIs. Em conjunto, os nossos resultados apontam para uma assinatura frontal direita antecipatória sensível à hierarquia linguística, acompanhada de ajustes auditivos transitórios em torno do evento acústico. Os resultados alinham-se com modelos onde oscilações de baixa frequência (delta/teta/alpha) suportam sequenciação e gating temporal, enquanto beta indexa conjunto preparatório e coordenação de estados motores. A preponderância do efeito no IFG direito é consistente com relatos de controlo inibitório e reset motor mediados por vias cortico-subtalâmicas (expressos na banda beta), sugerindo um mecanismo de terminação/configuração de chunks articulatórios ao aproximar-se um limite lexical. Importa notar que o principal efeito ocorre antes da articulação de pk3, reduzindo a plausibilidade de explicações baseadas em diferenças acústicas subsequentes ou artefactos mioelétricos faciais (minimizados também pela escolha de consoantes linguodentais/velares em pk3 e pelo pipeline ICA). Metodologicamente, três aspetos reforçam a validade interna: (i) alinhamento em pk3, que equilibra contexto pré- e pós-transição e mitiga potenciais de preparação de início; (ii) clustering ao nível-fonte de componentes independentes, conferindo maior interpretabilidade anatómica face a análises por elétrodo; e (iii) controlo rigoroso de ruído e múltiplas comparações (ICLabel/ICFlag; FDR). Ao mesmo tempo, reconhecemos limitações: a amostra (N = 19) típica de estudos EEG pode limitar a deteção de efeitos mais subtis; a análise de 20 clusters, ainda que sumarizada com foco em ROIs a priori, não elimina totalmente preocupações de multiplicidade; pequenas assimetrias temporais entre condições (-17 ms vs. +29 ms) podem, em princípio, influenciar estimativas TF; e o uso de pseudopalavras sob compasso rígido restringe a generalização para fala natural com variabilidade prosódica e semântica. Por fim, a resolução espacial do EEG de superfície é limitada para circuitos subcorticais (gânglios da base, cerebelo) implicados em temporização e manutenção de conjuntos. Em termos de implicações, demonstramos que a estrutura hierárquica da produção modela tanto o comportamento temporal como as dinâmicas corticais pré-fala. A assinatura frontal direita anterior a pk3 sugere um mecanismo de controlo preditivo que distingue se a sílaba seguinte encerra uma palavra ou antecipa um novo início lexical. Tal padrão complementa evidência da perceção da fala, onde ritmos lentos ancoram a extração de unidades linguísticas e beta participa em previsões sensório-motoras. Como perspetivas futuras, propomos manipular a força do limite (frequência lexical, marcação prosódica), escalar a cadência (variação de ISI), e relacionar potência frontal trial-wise com tempos de transição, testando ainda acoplamento entre bandas (p. ex., teta-beta) e conetividade faseada entre IFG, STG e SMA. A combinação de EEG/MEG ao nível-fonte com perturbação do feedback auditivo poderá clarificar como previsões frontais interagem com monitorização sensorial em limites lexicais. Em suma, quando os falantes produzem sílabas em cadência controlada, os tempos de transição e as oscilações corticais refletem a hierarquia linguística subjacente. Observa-se um padrão frontal direito robusto (teta/alpha-beta baixa) que antecede a transição-chave e diferencia contextos intra- e inter-palavra, enquanto os efeitos temporais auditivos são curtos e localizados. Estes resultados sustentam uma visão ritmo-centrada da produção, na qual redes frontais configuram estados preparatórios para a sequência articulatória e o sistema auditivo realiza ajustes transitórios em torno do evento acústico.

Speech production unfolds across different hierarchical levels, yet it remains unclear how neural dynamics differ between syllable- and word-level transitions. We recorded high-density EEG while 19 adults produced rhythmically cued pseudoword pairs comprising either two plus four syllables (2+4) or two trisyllabic words (3+3). Speech timing and EEG were time-locked to the third syllable (pk3), which corresponds to a word boundary in 2+4 and a within-word syllable transition in 3+3. Event-related spectral perturbations (ERSPs) were computed from an epoch (-1 to +1 s) around pk3 from EEG sources obtained from independent-component clusters. Behaviourally, intervals differed by condition: the pk2-pk3 interval was shorter in 3+3 condition relative to the 2+4 condition (difference = −17 ms), t(18) = 2.15, p = .045; the pk3–pk4 interval was longer in the 3+3 condition relatively to the 2+4 condition (difference = +29 ms), t(18) = −2.90, p = .010. At the cortical level, FDR-corrected ERSP differences emerged in three literature-derived ROIs: right inferior frontal gyrus (IFG; Cluster 3) showed a robust pre-pk3 modulation spanning ~4–30 Hz from approximately −500 to 0 ms, with greater power modulation for 3+3 than 2+4; left IFG (Cluster 1) exhibited a small, isolated alpha patch; and left superior temporal gyrus (Cluster 8) showed brief pre-pk3 alpha and early post-pk3 high-beta significant time-frequency clusters. No other ROI clusters yielded significant corrected effects. Our findings indicate a right-lateralised frontal preparatory signature that is sensitive to the hierarchical role of the upcoming syllable, alongside only transient auditory modulations. Together, these results support accounts in which low-frequency activity supports sequencing and beta rhythms index preparatory set during speech production, with timing and oscillatory dynamics jointly reflecting within- versus between-word transitions.

Palavras-chave

Produção da fala EEG Oscilações beta Giro frontal inferior Transições sílaba-palavra ERSP

URI

http://hdl.handle.net/10400.1/29063

Coleções

UA01-Teses
FCH1-Teses

Licença CC

cclicense-by

Ver registo completo