Em formação

Qual mecanismo neural explica a tendência de atender visualmente a toda a cena antes de dar atenção aos detalhes?

Qual mecanismo neural explica a tendência de atender visualmente a toda a cena antes de dar atenção aos detalhes?

Tenho a intuição de que a visão humana primeiro atende aos objetos de grande escala e, em seguida, aos detalhes de pequena escala. Existe algum mecanismo no córtex visual que explique esse fenômeno? Existe um processo de refinamento de resolução quando olhamos para as cenas?


Em primeiro lugar, não é apenas a sua intuição - há muitos resultados experimentais que mostram que primeiro percebemos a essência das cenas (por exemplo, é ao ar livre ou dentro de casa?), Depois as partes principais (havia um animal ou um humano figura nele?) então mais e mais detalhes (essa figura é masculina ou feminina? qual é a expressão dela?) [1] [2]. Observe, no entanto, que não está exatamente relacionado ao tamanho do objeto, mas mais à sua importância ou relevância percebida. (Veja também este ótimo vídeo sobre a cegueira para mudanças, que exemplifica isso)

Teoria da Hierarquia Reversa [3] propõe um mecanismo para isso - a ativação na rede flui principalmente "de baixo para cima", mas a percepção consciente começa em um nível superior e, então, acessa ativamente (por meio da atenção) os detalhes de "nível inferior" conforme eles são necessários. ou em suas palavras:

Classicamente, o sistema visual era visto como uma hierarquia de áreas corticais e tipos de células. Neurônios de áreas de baixo nível (V1, V2) recebem informações visuais e representam recursos simples, como linhas ou bordas de orientação e localização específicas. Suas saídas são integradas e processadas por níveis corticais sucessivos (V3, V4, área medial-temporal MT), que gradualmente se generalizam sobre os parâmetros espaciais e se especializam para representar características globais. Finalmente, outros níveis (área inferotemporal TI, área pré-frontal PF, etc.) integram suas saídas para representar formas abstratas, objetos e categorias. A função das conexões de feedback era desconhecida. A Teoria da Hierarquia Reversa propõe que a hierarquia direta acima atua implicitamente, com a percepção explícita começando no córtex de alto nível, representando a essência da cena com base em uma integração aproximada de primeira ordem de entrada de baixo nível. Mais tarde, a percepção explícita retorna às áreas inferiores por meio das conexões de feedback, para integrar à visão consciente com escrutínio as informações detalhadas ali disponíveis. Assim, a percepção inicial é baseada na atenção espalhada (grandes campos receptivos), adivinhando os detalhes e cometendo erros de ligação ou conjunção. A visão posterior incorpora detalhes, superando tais cegueiras


[1] Potter, M. C. (1976). Memória conceitual de curto prazo para fotos. Journal of Experimental Psychology: Human Learning and Memory; Journal of Experimental Psychology: Human Learning and Memory, 2 (5), 509. link

[2] Rensink, R. A., O'Regan, J. K., & Clark, J. J. (1997). Ver ou não ver: A necessidade de atenção para perceber mudanças nas cenas. Psychological Science, 8 (5), 368-373. ligação

[3] Hochstein, S., & Ahissar, M. (2002). Visualize a partir das hierarquias superiores e hierarquias reversas no sistema visual. Neuron, 36 (5), 791-804. ligação


O fenômeno que você descreve é ​​chamado de efeito de precedência global e foi estudado extensivamente pela primeira vez por David Navon (1977). Uma forma de medir esse efeito é criar conflito entre as características globais e locais. Por exemplo, Navon apresentou observações com estímulos de letras que foram globalmente organizados em letras diferentes, como;

Os observadores foram instruídos a indicar a) quando as letras menores eram E vs H ou b) quando as letras maiores formavam um E vs H. Navon descobriu que os tempos de reação eram geralmente mais rápidos quando as características globais e locais eram congruentes. No entanto, o conflito causado pela forma global prejudicou os tempos de reação em a) muito mais do que o conflito causado pelas letras menores em b). A maior interferência da estrutura global foi interpretada como mostrando que a forma global é processada antes dos detalhes locais.

Este efeito foi estudado em maiores detalhes por Aude Oliva e Phillipe Schyns. Oliva apresentou imagens híbridas de cenas naturais. Essas imagens eram compostas por informações de alta frequência espacial de uma cena e informações de baixa frequência espacial de outra cena. Por exemplo, nas imagens abaixo, a informação de baixa frequência espacial de uma rodovia foi combinada com a informação de alta frequência espacial de uma imagem de arranha-céus (imagem superior) e vice-versa na imagem inferior. Eles mostraram que as informações de baixa frequência espacial são mais úteis, particularmente nos casos em que as cenas foram vistas apenas brevemente, ou quando os participantes tiveram que fazer um julgamento muito rápido.

O que é interessante sobre o estudo conduzido por Schyns e Oliva é que ele fornece uma evidência para uma explicação neural de por que os recursos globais dominam os detalhes. Esta explicação é baseada em dois tipos de células que existem na retina que enviam axônios para o tálamo no cérebro. Esses tipos de células são divididos em dois tipos: o neurônio magnocelular maior e o neurônio parvocelular menor. Esses tipos de células têm preferências espaciais e características temporais diferentes. Os neurônios mangocelulares preferem entradas de baixa frequência espacial e mostram uma resposta rápida e transitória. Os neurônios parvocelulares, por outro lado, preferem entradas coloridas de alta frequência espacial e mostram uma resposta lenta e sustentada. Portanto, a ideia é que a via magnocelular carrega rapidamente informações grosseiras e de baixa frequência espacial para o cérebro para formar uma interpretação inicial do mundo. Essa interpretação é então comparada às informações mais detalhadas transportadas pela via parvocelular à medida que chega ao córtex.

Referências Navon, D. (1977). Floresta antes das árvores: A precedência das características globais na percepção visual, Psicologia Cognitiva, Vol 9 (3), 353-383.

Schyns, P. G., & Oliva, A. (1994). De blobs a bordas de limite: evidências para reconhecimento de cena dependente do tempo e da escala espacial. Psychological Science, 5 (4), 195-200.


A visão humana está mais acostumada a ver primeiro as coisas que se movem. Assim, considerando que objetos de grande e pequena escala estão presentes no campo de visão, o objeto mostrará o primeiro sinal de movimento que será atendido primeiro pelo córtex visual. Acredito que isso se deva ao processo evolutivo em que os humanos eram caçadores e a mente evoluiu para detectar qualquer movimento animal na periferia.


Discussão

A descoberta primária é que a presença de um som assistido correspondendo à taxa temporal de um de um par de estímulos visuais ambíguos concorrentes permite aos sujeitos muito mais controle sobre a retenção voluntária desse estímulo dominante. O controle da atenção sobre o outro padrão visual, temporalmente incompatível, também foi influenciado pelo som, mas de maneira oposta. O tamanho desse efeito é notavelmente grande, dado que o controle da atenção sobre a rivalidade binocular costuma ser bastante fraco (Meng e Tong, 2004 Chong et al., 2005 van Ee et al., 2005 Paffen et al., 2006). É importante ressaltar que também mostramos que a atenção ativa tanto ao som quanto ao estímulo visual promoveu maior controle voluntário. Abaixo, argumentamos que isso pode ajudar a explicar por que outros pesquisadores em psicofísica não conseguiram encontrar essas ligações íntimas entre o controle da atenção auditiva e visual. Também demonstramos uma relação facilitadora na direção oposta, no sentido de que o controle da atenção sobre a ambigüidade de áudio é nitidamente auxiliado por um estímulo visual correspondente. Estendendo essa generalização, demonstramos que um estímulo tátil correspondente aumentava o controle da atenção na seleção perceptiva de estímulos visuais concorrentes e que esse controle era ainda mais fortalecido em uma condição trimodal que combinava estímulos áudio-táteis congruentes com o estímulo visual biestável. A Figura 4 resume a generalização dos resultados em diferentes padrões visuais, padrões de som e modalidades sensoriais.

Quando o som era temporariamente atrasado, os sujeitos ainda sentiam que a visão e o som estavam ligados por causa de sua relação de fase constante (Fig. 2b) Além disso, embora tenhamos fornecido apenas evidências formais para um envolvimento obrigatório de atenção direcionada nos experimentos de som sobre visão (Fig. 3d), nosso trabalho piloto (Fig. 5 suplementard, disponível em www.jneurosci.org como material suplementar) e a literatura disponível sugere que a atenção deve ser dada para promover interações modais cruzadas (Calvert et al., 1997 Gutfreund et al., 2002 Degerman et al., 2007 Mozolic et al. ., 2008 para revisão, ver Shinn-Cunningham, 2008). No entanto, embora uma investigação sistemática de deslocamento temporal e automação para os efeitos modais cruzados vá além do escopo do presente artigo, é interessante notar que o mecanismo de ritmo subjacente para nosso efeito baseado em ritmo pode ser diferente do mecanismo subjacente automaticamente ocorrendo interações auditivo-visuais baseadas em coincidência (como na percepção aprimorada de mudança visual relatada por um tom auditivo pip coincidente) (van der Burg et al., 2008).

Nosso estudo é único por usar estímulos visuais e auditivos biestáveis ​​concorrentes, proporcionando a oportunidade de estudar como o processamento sensorial competitivo em duas modalidades (relacionado a percepções em vez de estímulos físicos) é influenciado por sinais de outras modalidades. Como nossas descobertas lançam luz sobre os mecanismos subjacentes à resolução da ambigüidade perceptiva? Sugerimos que a capacidade aumentada de seleção atencional do estímulo congruente resulta de um aumento de seu ganho perceptivo, que é atribuível ao feedback de cima para baixo de processos atencionais multissensoriais que selecionam a característica congruente do sinal de entrada. Em apoio a isso, para a visão, foi mostrado anteriormente que o efeito da atenção de cima para baixo na extensão da duração da dominância para estímulos perceptualmente competindo é equivalente a um aumento no contraste do estímulo (Chong et al., 2005 Chong e Blake, 2006 Paffen et al., 2006). Isso está de acordo com estudos recentes sobre atenção espacial e visual em psicofísica (Blaser et al., 1999 Carrasco et al., 2004 Boynton, 2005) e neurofisiologia (Reynolds e Chelazzi, 2004) que demonstram que o mecanismo neural subjacente à seleção atencional envolve aumentar o ganho da população neural relevante. Isso é observado nos estágios corticais iniciais de processamento visual (Treue e Maunsell, 1996 Treue e Martínez Trujillo, 1999 Lamme e Roelfsema, 2000 Womelsdorf et al., 2006 Wannig et al., 2007) e auditivo (Bidet-Caulet et al. ., 2007). A partir dos resultados presentes, podemos concluir que o escopo desse processo de feedback pode ser estendido para incorporar sinais multimodais relevantes. Assim, parece que o controle voluntário sobre a resolução da ambigüidade pode ser modelado como um aumento no contraste efetivo (ganho perceptivo) de elementos de estímulo envolvendo atenção de característica, em oposição à atenção espacial. Em consonância com isso, o controle voluntário na biestabilidade perceptual depende multiplicativamente das características do estímulo (Suzuki e Peterson, 2000), e uma equivalência entre os efeitos dos parâmetros de estímulo e o controle de atenção é evidente mesmo no nível de parâmetros de ajuste para distribuições de dados de duração perceptiva (Brouwer e van Ee, 2006 van Ee et al., 2006). Também pode ser demonstrado quantitativamente, como em um modelo neural teórico desenvolvido recentemente (Noest et al., 2007), que a modulação do ganho de atenção em estágios corticais iniciais é suficiente para explicar todos os dados relatados sobre o controle de atenção de estímulos visuais biestáveis ​​(Klink et al. ., 2008). Assim, há evidências convergentes de que um mecanismo de ganho inicial está envolvido no controle da atenção da resolução perceptual de estímulos ambíguos, embora seja muito cedo para descartar totalmente a modificação de alto nível.

Embora haja suporte para a ideia de que a atenção auditiva e visual são processadas separadamente (Shiffrin e Grantham, 1974 Bonnel e Hafter, 1998 Soto-Faraco et al., 2005 Alais et al., 2006 Pressnitzer e Hupé, 2006 Hupé et al., 2008), nossos achados apoiam a literatura neurofisiológica (Calvert et al., 1997 Gutfreund et al., 2002 Shomstein e Yantis, 2004 Amedi et al., 2005 Brosch et al., 2005 Budinger et al., 2006 Degerman et al., 2007 Lakatos et al., 2007, 2008 Shinn-Cunningham, 2008) que os mecanismos de mediação do controle da atenção multissensorial estão intimamente ligados. Para entender esses resultados aparentemente díspares, observe primeiro que os estudos psicofísicos encontraram processamento separado, focado na atenção espacial, em oposição ao nosso estudo. Nossas descobertas dizem respeito à atenção característica e concordam com descobertas recentes que caracterizam a atenção podem influenciar mais profundamente o processamento de estímulos do que a atenção espacial (Melcher et al., 2005 Kanai et al., 2006). Observe ainda que apresentamos os estímulos de áudio e visuais correspondentes simultaneamente. O único outro estudo sobre o controle da atenção de estímulos auditivos e visuais ambíguos (Pressnitzer e Hupé, 2006) apresentou os estímulos das duas modalidades separadamente no tempo, descobrindo que os resultados das duas modalidades não estavam relacionados. Embora existam estudos relatando que a combinação de estímulos audiovisuais é obrigatória (Driver e Spence, 1998 Guttman et al., 2005), esta não é uma visão geral (Shiffrin e Grantham, 1974 Bonnel e Hafter, 1998 Soto-Faraco et al., 2005 Alais et al., 2006 Hupé et al., 2008). Nossos experimentos abordam isso usando estímulos auditivos e visuais perceptualmente ambíguos, dissociando atenção e estimulação para revelar que a atenção ativa a ambas as modalidades promove a combinação audiovisual, em linha com outros estudos recentes (Calvert et al., 1997 Gutfreund et al., 2002 Degerman et al., 2007 Mozolic et al., 2008).

Nossos dados sugerem um papel funcional para os neurônios recentemente encontrados nos córtices parietal posterior, pré-frontal superior e temporal superior humanos que combinam funções de atenção voluntariamente iniciadas em modalidades sensoriais (Gutfreund et al., 2002 Shomstein e Yantis, 2004 Degerman et al., 2007) . Sugerimos que, quando o cérebro pode detectar um ritmo em uma tarefa, a atenção realimenta o córtex unissensorial para reforçar a saída coerente e amplificada da interpretação perceptual correspondente. Recentemente, neurofisiologistas foram capazes de demonstrar que um ritmo assistido em uma tarefa forçou o arrastamento de oscilações de excitabilidade neuronal de baixo nível em diferentes modalidades sensoriais (Lakatos et al., 2008). O fato de que as oscilações em V1 entram tanto em estímulos auditivos assistidos quanto em estímulos visuais assistidos reforça a visão de que os córtices primários não são o domínio exclusivo de uma entrada de modalidade única (Foxe e Schroeder, 2005 Macaluso e Driver, 2005 Ghazanfar e Schroeder , 2006 Kayser e Logothetis, 2007 Lakatos et al., 2007) e confirma o papel da atenção na coordenação de estímulos heteromodais nos córtices primários (Brosch et al., 2005 Budinger et al., 2006 Lakatos et al., 2007, 2008 Shinn -Cunningham, 2008). Sugerimos que as mesmas populações de neurônios podem controlar a integração sensorial multimodal e o controle de atenção, sugerindo que a rede neural que cria a integração sensorial multimodal também pode fornecer a interface para a seleção perceptiva de cima para baixo. No entanto, nosso entendimento da arquitetura neural multissensorial ainda está em desenvolvimento (Driver e Noesselt, 2008 Senkowski et al., 2008) e uma visão competitiva, em vez de focar no feedback de áreas multissensoriais para unissensoriais, propõe que as interações multissensoriais podem ocorrer devido ao feedforward direto convergência em áreas corticais muito precoces, anteriormente consideradas exclusivamente unissensoriais (Foxe e Schroeder, 2005, Ghazanfar e Schroeder, 2006). O teste de visões concorrentes exigirá mais estudos, possivelmente usando técnicas de neuroimagem com alta resolução temporal ou técnicas de neurodisrupção para lesionar temporariamente a suposta área de nível superior.

Conclusão

Em suma, nosso novo paradigma envolvendo estímulos ambíguos (sejam visuais ou auditivos) nos permitiu demonstrar que a atenção ativa tanto ao padrão auditivo quanto ao visual era necessária para aumentar o controle voluntário na seleção perceptual. O acoplamento audiovisual que serviu de conscientização não era, portanto, totalmente automático, nem mesmo quando eles tinham a mesma taxa e fase. Isso sugere um papel funcional para os neurônios que combinam funções de atenção voluntariamente iniciadas em diferentes modalidades sensoriais (Calvert et al., 1997 Gutfreund et al., 2002 Shomstein e Yantis, 2004 Amedi et al., 2005 Brosch et al., 2005 Budinger et al. ., 2006 Degerman et al., 2007 Lakatos et al., 2007, 2008), porque na maioria desses estudos os efeitos de congruência não foram vistos, a menos que a atenção fosse ativamente usada. Isso se enquadra na psicofísica e na neurofisiologia, mostrando ligações íntimas entre atenção ativa e integração intermodal (Spence et al., 2001 Kanai et al., 2007 Lakatos et al., 2007 Mozolic et al., 2008 Shinn-Cunningham, 2008). Assim, esses mecanismos multissensoriais dependentes da atenção fornecem estrutura para o controle atencional da seleção perceptual de duas maneiras. Em primeiro lugar, ao responder à congruência intermodal, eles podem aumentar a resposta de linha de base da alternativa congruente (já que há mais “prova” para uma interpretação perceptual quando é apoiada por duas fontes de modalidade convergentes). Em segundo lugar, eles podem aumentar o controle da atenção sobre a seleção perceptual porque um ganho multiplicativo será mais significativo ao atuar em uma linha de base mais alta, permitindo, portanto, um controle mais atencional.


Introdução

Durante séculos, os pesquisadores tentaram desvendar a mecânica do sistema visual humano - um sistema que pode identificar com sucesso objetos e materiais complexos e naturalistas em uma gama inimaginavelmente ampla de imagens. Muitos dos mecanismos de nível inferior dentro deste sistema são agora muito bem compreendidos [1–3]. Por exemplo, foram identificadas redes de células que são especificamente sintonizadas para orientações, cores, frequências espaciais, frequências temporais, direções de movimento e disparidades [4,5]. As células mais adiante na hierarquia de processamento visual são sensíveis a características de estímulos mais complexas e são muito mais difíceis de caracterizar [6]. No entanto, avanços recentes em redes neurais artificiais são promissores para o desenvolvimento de modelos de processos computacionais de imagem detalhados de inferências visuais sofisticadas, como reconhecimento de objeto em fotografias arbitrárias [7-10].

As redes neurais artificiais fornecem uma plataforma experimental para simular habilidades visuais complexas e, em seguida, sondar cuidadosamente o papel de funções objetivas específicas, conjuntos de treinamento e arquiteturas de rede que geram desempenho semelhante ao humano. Concentrando-se em uma única tarefa - como a estimativa de uma propriedade física específica a partir da imagem - torna-se mais fácil destacar os recursos aprendidos de uma rede.Tendo desenvolvido um modelo que imita o comportamento humano, as propriedades de resposta de todas as unidades da rede podem ser medidas com precisão arbitrária sobre condições arbitrárias, como uma forma idealizada de na Vivo neurociência de sistemas executada em um sistema modelo em vez de tecido real.

Uma habilidade visual particularmente intrigante é a percepção de líquidos. Os líquidos podem adotar uma gama extraordinária de aparências diferentes por causa de suas formas altamente mutáveis, que são influenciadas tanto por parâmetros físicos internos, como a viscosidade, quanto por forças externas, como a gravidade. A propriedade física mais importante que distingue diferentes líquidos é a viscosidade. Ainda assim, para estimar a viscosidade, o sistema visual deve de alguma forma descontar as contribuições das forças externas para o comportamento observado. Por exemplo, pode-se fazer com que um líquido viscoso flua e respingue como um líquido escorrendo, se for impulsionado com velocidade suficiente. O comportamento dos líquidos é governado por leis físicas complexas, e é bastante improvável que possamos inferir a viscosidade de um determinado líquido simulando explicitamente o fluxo de partículas dentro do líquido (embora veja [11,12]). Anteriormente, descobrimos que os observadores recorrem a uma variedade de pistas ópticas, de forma e movimento para identificar líquidos e inferir suas propriedades [13-16]. No entanto, os recursos de estímulo subjacentes a tais inferências são frequentemente definidos apenas vagamente. Até o momento, ainda não existe um modelo computável por imagem que possa prever a percepção de líquidos ou sua viscosidade. Aqui, procuramos alavancar avanços recentes em redes neurais profundas (DNNs) para desenvolver tal modelo e, em seguida, sondar seu funcionamento interno para gerar novas hipóteses sobre como o sistema visual humano estima a viscosidade.

No aprendizado de máquina, a maioria dos trabalhos em redes neurais artificiais se concentra em obter o melhor desempenho possível em uma determinada tarefa. Neste estudo, por outro lado, em vez de procurar desenvolver uma rede que seja matematicamente ideal para estimar a viscosidade, buscamos desenvolver uma rede de convolução feedforward que imita mais de perto o comportamento do sistema visual humano. Para avaliar até que ponto os modelos se assemelhavam aos humanos, pedimos aos observadores que julgassem a viscosidade nos mesmos filmes que foram mostrados às redes neurais treinadas.

As redes neurais usadas aqui tinham uma arquitetura de "fusão lenta" [17] para processar dados de filmes (em oposição a quadros estáticos). Eles foram treinados em um conjunto de dados de 100.000 animações de simulação de fluidos geradas por computador, 20 quadros de comprimento, retratando líquidos interagindo em dez classes de cena diferentes, o que induziu uma ampla variedade de comportamentos (derramar, mexer, borrifar, etc. Figura 1) O objetivo do treinamento foi estimar o parâmetro de viscosidade física nas simulações. Para testar a generalização, a décima cena não foi usada durante o treinamento e 0,8% das simulações em cada cena foram retidas para validação durante o treinamento. Os rótulos de treinamento corresponderam às dezesseis diferentes etapas de viscosidade física que foram simuladas. Para comparação, os observadores humanos realizaram uma tarefa de classificação de viscosidade, na qual viram 800 desses estímulos e atribuíram rótulos de viscosidade percebida. As redes foram treinadas em rótulos de viscosidade física - não classificações humanas - mas usamos a otimização bayesiana dos hiperparâmetros da rede (por exemplo, taxa de aprendizagem, momentum) e configurações específicas de camada (tamanhos de kernel, número de filtros) para pesquisar redes que se correlacionam bem com humanos nos 800 rótulos de viscosidade percebida. É importante ressaltar que o treinamento foi relativamente curto, com apenas 30 épocas (30 repetições de todo o conjunto de treinamento). Com as redes em mãos, analisamos então suas representações internas para identificar características que levaram a um comportamento semelhante ao humano.

Diferentes interações líquidas foram simuladas, como verter, chuva, mexer e mergulhar. As propriedades do material óptico e os mapas de iluminação foram atribuídos aleatoriamente com o plano branco e o reservatório quadrado permanecendo constantes. S1 Video mostra os estímulos em movimento.

Nossas principais análises e descobertas são as seguintes. Para determinar se temos um modelo que é suficientemente próximo do desempenho humano para garantir uma análise mais aprofundada, primeiro comparamos as previsões das redes com julgamentos perceptivos humanos em uma base estímulo por estímulo. Descobrimos que uma rede treinada para estimar a viscosidade física de fato prediz os julgamentos de viscosidade humana média tão bem quanto os humanos individuais. Não precisava ter sido esse o caso. Os seres humanos aprendem a realizar uma gama muito mais ampla de tarefas visuais em uma dieta visual muito mais diversa, então não é trivial que tal rede treinada em rótulos físicos e simulações de computador preveja erros e sucessos do desempenho humano. Também descobrimos que as melhores previsões surgem quando as redes são treinadas por um período relativamente curto.

Em segundo lugar, tendo estabelecido que a rede imita o desempenho humano, buscamos obter insights sobre o funcionamento interno da rede, analisando as propriedades de resposta de unidades individuais em vários estágios da rede ("eletrofisiologia virtual"). Fizemos isso: (a) comparando suas respostas a um conjunto de recursos de engenharia manual e propriedades de cena verdadeiras, (b) identificando os estímulos que mais fortemente ou mais fracamente conduzem as unidades e (c) visualizando diretamente os recursos por meio da maximização da ativação. Juntas, essas análises revelaram que muitas unidades são ajustadas para recursos espaço-temporais e de cor interpretáveis. No entanto, também encontramos uma população distinta de unidades com propriedades de respostas não triviais (ou seja, cujas respostas são mal explicadas por qualquer um dos recursos que consideramos) e que são especialmente importantes para o desempenho da rede. Também mostramos que as combinações lineares das características de engenharia manual são insuficientes por si mesmas para explicar a percepção da viscosidade humana, reforçando ainda mais a importância das unidades adicionais.

Terceiro, analisamos as representações de rede no nível de camadas inteiras ('fMRI virtual') e estudamos os efeitos da capacidade da rede (ou seja, número de unidades) na representação interna. As principais conclusões são: (1) uma transição gradual de descritores de imagem de baixo nível para recursos de nível superior ao longo da hierarquia de rede, e (2) uma dependência notável das representações internas no número de unidades, praticamente independentemente do desempenho geral e do capacidade de prever julgamentos humanos. Isso sugere que é necessário cuidado ao inferir as propriedades dos sistemas visuais biológicos de modelos com desempenho aparentemente semelhante.

Finalmente, comparamos as representações no nível de redes inteiras, para confirmar se 100 instâncias da mesma arquitetura treinadas no mesmo conjunto de dados produziram representações internas semelhantes ("diferenças individuais virtuais"). Os resultados de fato revelam um desempenho altamente semelhante, com semelhança ligeiramente decrescente ao longo da hierarquia da rede (ou seja, as representações de baixo nível são quase idênticas nas redes, os estágios posteriores diferem mais). Também comparamos nosso modelo com outras arquiteturas de rede (pré) treinadas em outros conjuntos de dados, descobrindo que o treinamento da arquitetura estudada aqui no conjunto de treinamento específico que usamos produz a correspondência mais próxima aos julgamentos humanos.


Materiais e Método

Participantes

Vinte e um adultos jovens participaram do estudo. Todos os participantes eram destros, falantes nativos de inglês, sem histórico de doenças psiquiátricas ou neurológicas. Os participantes forneceram consentimento informado por escrito de acordo com o Comitê de Revisão Institucional do Duke University Medical Center. Um participante foi excluído por movimento excessivo da cabeça e um foi excluído por problemas com a aquisição de imagem, deixando dados de 19 participantes incluídos na análise (9 mulheres com idades entre 18 & # x0201329, m = 23.0, SD = 3,1). Além disso, um participante foi removido apenas das análises que comparam diretamente & # x0201cremember & # x0201d versus & # x0201 julgamentos antigos de alta confiança & # x0201d por não ter & # x0201cremember & # x0201d respostas na condição semântica neutra.

Estímulos

Os estímulos incluíram 630 imagens do International Affective Picture System (Lang, Bradley, & # x00026 Cuthbert, 2008), bem como de um banco de dados interno padronizado que nos permitiu equacionar melhor as imagens em termos de complexidade visual e conteúdo (por exemplo, humano presença). As imagens foram atribuídas com base em uma escala de valência normativa de 9 pontos para condições emocionalmente negativas (valência: 1 & # x020134), neutras (valência: 4 & # x020136) e positivas (valência: 6 & # x020139). De acordo com o procedimento de seleção de imagem, as pontuações de valência padronizadas foram menores para imagens negativas (M = 2,85, DP = 0,62) do que para imagens neutras (M = 5,14, SD = 0,43 t (418) = 43,98, p & # x0003c 0,001 ), e mais alto para imagens positivas (M = 7,02, SD = 0,54) do que neutras (t (418) = 39,85, p & # x0003c 0,001). Além disso, os escores de excitação (1 = calmo, 9 = animado) foram maiores para imagens negativas (M = 5,72, DP = 0,49) do que neutras (M = 3,51, DP = 0,49 t (418) = 45,95, p & # x0003c. 001), maior para imagens positivas (M = 5,68, SD = 0,59) do que neutras (t (418) = 40,91, p & # x0003c 0,001), e não diferiu significativamente entre imagens negativas e positivas (t (418) = 0,62, p = 0,54).

Procedimento

Os participantes realizaram tarefas de codificação e memória de reconhecimento no scanner, com um intervalo de 2 dias entre as tarefas. Durante a codificação, os participantes viram 140 imagens negativas, 140 positivas e 140 neutras. A sessão de codificação consistiu em 10 execuções funcionais, nas quais as imagens negativas, positivas e neutras foram divididas igualmente. Executa alternada entre duas tarefas distintas, semântica e perceptual, descritas a seguir. Para evitar a indução de estados de humor duradouros, as imagens dentro de cada bloco foram pseudo-randomizadas de forma que não mais do que três imagens da mesma valência foram apresentadas consecutivamente. A atribuição de listas de estímulos de codificação para a tarefa semântica versus perceptual foi contrabalançada entre os participantes.

Tarefas semânticas e perceptivas são ilustradas na Figura 1-A. Na tarefa semântica, os participantes foram instruídos a analisar cuidadosamente cada imagem quanto ao seu significado e interpretação, para que, após a retirada da imagem, pudessem escolher entre duas descrições possíveis da imagem. Na tarefa perceptiva, os participantes foram instruídos a analisar cada imagem cuidadosamente quanto às suas características perceptivas, particularmente cores e linhas, de modo que depois que a imagem fosse tirada, eles pudessem decidir, por exemplo, se havia mais vermelho versus verde ou mais horizontal versus linhas verticais na imagem. De forma crítica, os participantes foram informados antes de cada execução sobre qual tarefa seria a próxima, para que pudessem adaptar o processamento de cada imagem à tarefa atual.

A estrutura do ensaio foi semelhante entre as tarefas (Figura 1-A). Para cada tentativa, uma imagem foi apresentada por 2 segundos. Um intervalo de fixação jittered seguiu cada apresentação de imagem, desenhado a partir de uma distribuição exponencial com uma média de 2 segundos. Após esse intervalo, o participante foi instruído a classificar a imagem quanto à sua excitação ou intensidade emocional em uma escala de 4 pontos (1 = calma, 4 = excitada). A tela de classificação permaneceu na tela por 1 segundo e foi imediatamente seguida por uma tela de perguntas, que variava de acordo com a tarefa. Na tarefa semântica, a tela de perguntas dizia: & # x0201cQual palavra melhor descreve a imagem? & # X0201d Duas opções possíveis foram apresentadas na tela, ambas escritas para cada imagem de forma que ambas pudessem ser relacionadas à imagem, mas apenas um descreveu o verdadeiro significado da imagem. Na tarefa de percepção, a tela de perguntas dizia: & # x0201cQual característica há mais de? & # X0201d Duas opções possíveis foram apresentadas na tela: dois nomes de cores ou as palavras horizontal e vertical. A tela de perguntas permaneceu por 1 segundo, seguido por outro intervalo de fixação instável (média = 2 s) antes da próxima tentativa. As respostas foram coletadas até a próxima foto aparecer.

Dois dias após a codificação, os participantes concluíram uma tarefa de reconhecimento para as imagens (ver Figura 1B). Outras 70 imagens emocionalmente negativas, 70 positivas e 70 neutras foram apresentadas como distratores. As fotos foram apresentadas por 2 segundos cada, seguido por um intervalo de fixação instável (média = 2 s). Os participantes indicaram se o item era antigo ou novo usando uma escala de 5 pontos, com 1 = definitivamente novo, 2 = talvez novo, 3 = talvez velho, 4 = definitivamente velho e 5 = lembrar. Os participantes foram instruídos de que uma resposta de lembrar indicava a lembrança de um detalhe específico de quando viram aquela imagem durante o período de codificação, enquanto uma resposta definitivamente antiga não incluía nenhum detalhe específico.

Análises comportamentais

As avaliações médias de excitação e a precisão das perguntas foram calculadas separadamente para cada tipo de tentativa. Para medir as diferenças na resposta da memória entre as condições, as taxas de acerto, as taxas de falso alarme e as pontuações d & # x02019 foram avaliadas para cada tipo de ensaio. Em modelos de detecção de sinal, a sensibilidade ao sinal de memória é medida como d& # x02019 (a diferença entre ocorrências transformadas em Z e alarmes falsos) (Macmillan & # x00026 Creelman, 2005). Como o efeito da emoção na memória tende a ser mais forte quando apenas respostas altamente confiantes ou estimativas de recordação são consideradas (Dolcos, et al., 2005 Ochsner, 2000) d & # x02019 foi avaliado com seu critério entre 3 (& # x02018 pode ser antigo & # x02019 ) e 4 (& # x02018 definitivamente antigo & # x02019). Ou seja, as respostas de 4 e R foram consideradas como & # x02018old & # x02019 e as demais como respostas & # x02018new & # x02019. Dados de resposta de codificação e pontuações d & # x02019 foram inseridos em ANOVAs de medidas repetidas separadas com emoção (negativa, neutra, positiva) e tarefa (profunda, superficial) como fatores. As estatísticas post-hoc subsequentes consistiram em ANOVAs de medidas repetidas com os fatores e variáveis ​​de interesse correspondentes.

Métodos fMRI

Scanning

As imagens foram coletadas usando um scanner 4T GE. Os estímulos foram apresentados usando óculos de cristal líquido (Resonance Technology, Northridge, CA), e as respostas comportamentais foram registradas usando uma caixa de resposta de fibra óptica de quatro botões (Tecnologia de Ressonância). O ruído do scanner foi reduzido com tampões de ouvido e o movimento da cabeça foi minimizado usando almofadas de espuma e uma faixa para a cabeça. A varredura anatômica começou com uma série do localizador sagital ponderado em T2. As comissuras anterior (AC) e posterior (PC) foram identificadas no corte sagital mediano, e 34 cortes oblíquos contíguos foram prescritos paralelos ao plano AC-PC. Imagens estruturais ponderadas em T1 de alta resolução foram coletadas com um campo de visão (FOV) de 24 cm, uma matriz de 256 2, 68 cortes e uma espessura de corte de 1,9 mm. As imagens funcionais foram adquiridas usando uma sequência espiral inversa com um TR de 2 segundos, um TE de 31 ms, um FOV de 24 cm, uma matriz de 64 2 e um ângulo de 60 & # x000b0flip. Trinta e quatro cortes contíguos foram adquiridos com a mesma prescrição de corte das imagens anatômicas. A espessura da fatia era de 3,8 mm, resultando em 3,75 & # x000d7 3,75 & # x000d7 voxels de 3,8 mm.

Análise estatística

O pré-processamento e a análise dos dados foram realizados usando o software SPM5 implementado no Matlab (www.fil.ion.ucl.ac.uk/spm/). Depois de descartar os primeiros 6 volumes, as imagens funcionais foram corrigidas no tempo de corte e corrigidas por movimento, normalizadas espacialmente para o modelo do Montreal Neurological Institute (MNI), suavizadas espacialmente usando um kernel gaussiano isotrópico de 8 mm e resliciadas para uma resolução de 3,75 & # x000d7 3,75 e # x000d7 voxels de 3,8 mm. Para cada sujeito, as respostas hemodinâmicas evocadas para tipos de eventos foram modeladas com uma função delta (stick) correspondente à apresentação do estímulo convolvida com uma função de resposta hemodinâmica canônica dentro do contexto do modelo linear geral, conforme implementado no SPM5. Os tipos de eventos principais foram modelados no nível de efeitos fixos, representando todas as combinações possíveis de emoção (negativa, neutra, positiva), tarefa de codificação (semântica, profunda) e precisão de memória (acertos, erros, alarmes falsos, rejeições corretas). Dado nosso foco na amígdala e as evidências de fMRI disponíveis de que esta região contribui de forma semelhante para a memória emocional para imagens positivas e negativas (por exemplo, Anders, Lotze, Erb, Grodd, & # x00026 Birbaumer, 2004 Garavan, Pendergrass, Ross, Stein, & # x00026 Risinger, 2001 Hamann, Ely, Grafton, & # x00026 Kilts, 1999 Hamann & # x00026 Mao, 2002), os ensaios positivos e negativos foram agrupados em uma única categoria de emoção em todas as análises estatísticas. Fatores de confusão (movimento da cabeça, desvio do campo magnético) foram incluídos no modelo. Como o foco teórico da análise atual está nos efeitos da excitação, ao invés da valência, cenas positivas e negativas foram combinadas no nível de efeitos aleatórios para formar o tipo de evento emocional.

Nosso primeiro objetivo foi investigar como o processamento perceptivo versus semântico modula os efeitos da emoção na atividade relacionada à recuperação. Dado que o foco desse primeiro objetivo estava nas diferenças quantitativas de memória, usamos uma abordagem paramétrica para identificar a atividade que variava com a força da memória e, em seguida, investigamos como essa atividade era afetada pela emoção e pela tarefa de codificação. Para cada participante, um regressor paramétrico linear foi usado para modelar a resposta de reconhecimento a itens antigos, com 1 = definitivamente novo, 2 = talvez novo, 3 = talvez velho, e 4 + 5 recolhidos para definitivamente velho. Respostas de alta confiança foram agrupadas neste modelo para investigar os efeitos da força da memória, ao invés da lembrança. As estimativas para o regressor paramétrico foram geradas para cada participante e, em seguida, inseridas em testes t de nível de grupo para avaliar os efeitos da emoção (imagens emocionais vs. neutras) em função da tarefa de codificação anterior (processamento perceptivo vs. semântico). Para especificar ainda mais a interação entre a excitação emocional e o tipo de processamento anterior no sucesso da memória, um segundo modelo foi executado no qual as classificações de excitação feitas para cada cena durante a codificação foram inseridas como um regressor paramétrico e as ativações durante os testes de alta confiança foram contrastadas como uma função de tarefa de codificação (perceptual versus semântica).

Nosso segundo objetivo foi testar se a codificação perceptual versus semântica anterior de estímulos emocionais influencia diferencialmente as ativações neurais baseadas na lembrança versus familiaridade. Assim, enquanto nosso primeiro objetivo focava em diferenças quantitativas na memória (força da memória), nosso segundo objetivo focava em diferenças qualitativas (lembrança vs. familiaridade). Para tanto, utilizamos uma abordagem ANOVA com emoção (emoção, neutro), tarefa de codificação (perceptual, semântica) e tipo de memória (Lembrança vs. Familiaridade).Como em estudos de fMRI anteriores (por exemplo, Yonelinas, Otten, Shaw, & # x00026 Rugg, 2005), medimos a lembrança usando as respostas de Lembre-se (5) (número médio de tentativas em cada compartimento: 11 para percepção neutra, 36 para percepção emocional, 17 para semântica neutra e 44 para semântica emocional) e familiaridade usando respostas de reconhecimento de alta confiança (4) (número médio de tentativas em cada compartimento: 18 para percepção neutra, 37 para percepção negativa, 21 para semântica neutra e 40 para negativa semântica). As respostas de alta confiança (4) foram descritas para os participantes como sendo tão familiares quanto as respostas de Lembre-se e diferiam apenas na lembrança de detalhes específicos do período de codificação. Portanto, essa comparação é a maneira mais limpa de discriminar entre lembrança e familiaridade e pode ser interpretada em conjunto com a análise de força paramétrica, que entrou em colapso entre esses tipos de resposta. Os principais efeitos e interações foram avaliados pela ponderação dos tipos de condição na estrutura ANOVA. Apenas para fins de visualização, as análises de regiões de interesse foram realizadas extraindo o valor beta médio de todos os voxels significativamente ativos dentro do cluster funcional de interesse e plotando-os como uma função da condição experimental.

Nosso terceiro objetivo foi investigar os efeitos do processamento perceptivo vs. semântico na conectividade da amígdala durante a recuperação bem-sucedida da memória emocional. Uma região semente para a análise de conectividade funcional foi selecionada de uma interação de emoção geral (emocional, neutra) por sucesso de recuperação (acertos, erros) na direção de emocional & # x0003eneutral e hit & # x0003emiss. Esta análise identificou um agrupamento de amígdala direita, que mostrou maiores diferenças de acerto e erro para estímulos emocionais do que neutros (xyz = 23, 11, & # x0221219) e foi imparcial em relação aos efeitos da tarefa de codificação. Posteriormente, cada ensaio foi modelado como um evento separado, produzindo diferentes valores beta para cada ensaio e cada sujeito no agrupamento de sementes de interesse (Rissman, Gazzaley, & # x00026 D'Esposito, 2004), e as correlações foram examinadas entre as séries temporais atividade da semente com todos os outros voxels no cérebro. Uma caixa foi construída usando todos os voxels diretamente adjacentes à coordenada de pico dentro do agrupamento funcional da amígdala do teste geral de memória emocional bem-sucedida (emocional & # x0003eneutral, hits & # x0003emisses). Um mapa de correlação foi criado para cada condição que exibia a magnitude da correlação entre cada voxel e a região da semente da amígdala ao longo do tempo. Mapas de correlação foram posteriormente inseridos no SPM para identificar regiões do cérebro que mostram conectividade diferencial como uma função da condição experimental. Para determinar os efeitos da conectividade da amígdala para uma recuperação emocional bem-sucedida, as análises de conectividade foram examinadas dentro da rede de recuperação bem-sucedida, definida como hits & # x0003emisses.

Para controlar o erro familiar resultante de comparações múltiplas, realizamos uma simulação de Monte Carlo (Slotnick et al. 2003). Este procedimento determina a altura e o limite de extensão do cluster suficientes para produzir um limite corrigido de p & # x0003c 0,05. Com base nos resultados da simulação, os clusters foram considerados se excedessem um limite não corrigido de p& # x0003c 0,001 com 10 ou mais voxels contíguos (3,75 mm isotrópico) para análises de cérebro inteiro. No caso da análise direcionada que avalia as diferenças entre & # x0201cremember & # x0201d versus & # x0201c respostas definitivamente antigas & # x0201d na atividade de MTL, as ativações foram consideradas se excederam um limite não corrigido de P & # x0003c 0,005 com 3 ou mais voxels contíguos em a região focal hipotética de interesse (ROI) (MTL bilateral). As análises de conjunção foram avaliadas inserindo contrastes individuais em p & # x0003c.001 não corrigido, de modo que formaram uma probabilidade de limiar comum de p& # x0003c.000001. Todas as ativações são apresentadas de acordo com a convenção neurológica. Nas figuras, a atividade estatisticamente significativa é projetada em um modelo de imagem estrutural T1 de sujeito único. A área de Brodmann (BA) e as localizações girais das ativações foram determinadas usando o WFU PickAtlas e o Talaraich Client (http://www.talairach.org/client.html).


Indivíduos com transtorno do espectro do autismo alteraram a capacidade de codificação visual

¶ ‡ JPN e LQZ compartilham a primeira autoria neste trabalho. AAS e DEA são co-autores seniores neste trabalho.

Affiliation Center for Neural Science, New York University, New York City, New York, Estados Unidos da América

Funções curadoria de dados, análise formal, investigação, software, visualização, redação - rascunho original, redação - revisão e edição

¶ ‡ JPN e LQZ compartilham a primeira autoria neste trabalho. AAS e DEA são co-autores seniores neste trabalho.

Departamento de Psicologia da Afiliação, Universidade da Pensilvânia, Filadélfia, Pensilvânia, Estados Unidos da América

Investigação de funções, administração de projetos, supervisão, validação, redação - rascunho original, redação - revisão e edição

¶ ‡ JPN e LQZ compartilham a primeira autoria neste trabalho. AAS e DEA são co-autores seniores neste trabalho.

Afiliações Departamento de Psicologia, Universidade da Pensilvânia, Filadélfia, Pensilvânia, Estados Unidos da América, Departamento de Engenharia Elétrica e de Sistemas, Universidade da Pensilvânia, Filadélfia, Pensilvânia, Estados Unidos da América

Aquisição de financiamento de funções, administração de projetos, redação - rascunho original, redação - revisão e edição

¶ ‡ JPN e LQZ compartilham a primeira autoria neste trabalho. AAS e DEA são co-autores seniores neste trabalho.

Affiliation Center for Neural Science, New York University, New York City, New York, Estados Unidos da América


Psicologia: Capítulo 9

A) Sua conclusão geral de evidências específicas não é uma inferência causal.

B) A conclusão é corroborada por uma parte independente.

C) A afirmação geral na qual ela baseia sua premissa específica é verdadeira.

A) Uma forma de julgamento que desconsidera a teoria causal sobre a teoria correlacional

B) A tendência de atender seletivamente às informações que apóiam as crenças gerais de alguém, enquanto ignora as evidências que contradizem as próprias crenças

C) A tendência das pessoas de ver os eventos como sendo mais previsíveis do que realmente são, uma vez que ocorrem

A) Eles nos ajudam a organizar nossas percepções do mundo.

B) Eles consistem em representações visuais criadas pelo cérebro uma vez que o estímulo original é ativado.

C) São estruturas da mente que representam um objeto externo ou algo sentido no presente.

A) Em comparação com bebês de 6 a 9 meses de idade em um único idioma, bebês bilíngues da mesma idade discriminam sons semelhantes.

B) Pessoas fluentes em duas línguas aparentemente são capazes de um processamento cognitivo mais eficiente do que aquelas que falam apenas uma.

C) Os cérebros de bebês bilíngues respondem menos a uma ampla gama de sons.

A) É a capacidade de imaginar coisas que não estão sendo percebidas atualmente.

B) Verificou-se que o cérebro é menos ativo durante a imaginação visual do que durante a percepção visual.

C) Geralmente ocorre apenas por meio da formulação verbal de pensamentos.

A) homens e mulheres têm o mesmo nível de habilidade em tarefas de rotação mental.

B) as mulheres geralmente se saem melhor do que os homens em tarefas de rotação mental.

C) homens e mulheres raramente ou nunca são habilidosos em tarefas de rotação mental.

A) Eles são menos úteis para pensar sobre coisas que sentimos no passado.

B) Eles geralmente não permitem imaginar coisas no futuro.

C) Freqüentemente, não tratam das coisas que se está sentindo no momento.

A) A percepção visual pode ser medida em uma escala comum, enquanto as imagens visuais são abstratas e é difícil determinar sua intensidade.

B) A percepção visual ocorre por meio da formulação verbal, enquanto a imagem visual ocorre principalmente por meio da rotação mental.

C) A percepção visual ocorre na ausência de estímulo sensorial, enquanto a imagem visual é imaginar um objeto girando no espaço tridimensional por um longo período de tempo.


De Fragmentos a Objetos

Shaun P. Vecera, Marlene Behrmann, em Advances in Psychology, 2001

O QUE É UM OBJETO?

Antes de revisar as descobertas e relatos de atenção baseada em objeto, devemos ter claro o que o termo “objeto” significa. No contexto da seleção atencional, “objetos” referem-se a grupos ou unidades perceptuais (ver Logan, 1996, por exemplo). Esses grupos perceptivos são formados por meio da aplicação dos bem conhecidos princípios de organização da gestalt, princípios como proximidade, similaridade, boa continuação, fechamento, conexão e assim por diante. Múltiplos relatos teóricos e muitos resultados empíricos sugerem que os princípios da gestalt operam no início do processamento visual em um nível pré-atencional (por exemplo, Julesz, 1984 Neisser, 1967 Treisman & amp Gelade, 1980). Além disso, um único grupo perceptivo pode ter uma organização hierárquica. Um grupo perceptivo pode conter partes, e há princípios perceptuais que podem ser usados ​​para definir as partes de um grupo perceptivo (por exemplo, Hoffman & amp Richards, 1984 Hoffman & amp Singh, 1997 Vecera, Behrmann, & amp Filapek, na prensa Vecera, Vecera, Behrmann, & amp McGoldrick., 2000). Esses princípios de agrupamento perceptivo permitem que o espaço visual ou características espaciotópicas sejam organizadas. Referimo-nos a esta definição de agrupamento perceptual de “objeto” como uma representação de “matriz agrupada”. A matriz agrupada é uma representação em formato de matriz, ou espaciotópica, que codifica recursos em localizações retinais específicas, semelhante aos mapas de recursos de Treisman (1988). Vários princípios de agrupamento da Gestalt organizam essa matriz em blocos coerentes de informações visuais que correspondem a objetos ou formas. (Consulte também a próxima seção deste volume para modelos computacionais de formação e agrupamento de unidades.) As representações espaciais que fundamentam a atenção baseada em objetos podem ser compartilhadas com a atenção espacial (ver Valdes-Sosa et al., 1997, para resultados relevantes, que discutimos abaixo).

Nossa definição de “objeto” aponta uma conexão estreita entre os processos de segregação de objetos e os processos de atenção baseados em objetos. Segregação de objetos refere-se aos processos visuais que determinam quais recursos visuais se combinam para formar uma única forma e quais recursos se combinam para formar outras formas. A segregação de objetos é sinônimo de organização perceptual, o termo usado em conjunto com os princípios gestálticos de organização visual (por exemplo, Wertheimer, 1923/1958). A capacidade de realizar a segregação figura-fundo e distinguir formas de primeiro plano ('figuras') de regiões de fundo também envolve processos de segregação (por exemplo, Rubin, 1915/1958), embora a segregação figura-fundo possa seguir processos de segregação de imagem anteriores (Vecera & amp O ' Reilly, 1998). Um exemplo de segregação de objetos aparece na Figura 1, que contém dois grupos perceptuais que são formados pelos princípios da gestalt de proximidade e boa continuação.

Figura 1 . Um exemplo de segregação de objetos em que a proximidade gestáltica e a boa continuação formam dois grupos perceptivos (duas linhas). As pequenas linhas retas alinham o grupo superior porque estão mais próximas umas das outras do que as pequenas linhas da linha inferior.

Os recursos são segmentos de linha individuais que são organizados em duas formas distintas - duas linhas, uma linha reta e uma linha ondulada. Observe que esses dois “objetos” (linhas) são aproximadamente iguais em sua saliência. Nenhum dos objetos parece chamar a atenção de maneira mais eficaz do que o outro. No entanto, em tal exibição, a evidência empírica indica que um desses objetos poderia ser atendido seletivamente.

O fato de os dois objetos na Figura 1 terem saliência aproximadamente igual indica que o sistema visual humano deve ser capaz de, de alguma forma, criar um viés de processamento que favoreça um desses objetos em detrimento do outro. A atenção baseada em objeto (ou seja, direcionar a atenção para um desses objetos) pode fornecer um mecanismo para favorecer a linha reta ou a linha ondulada na Figura 1. Atenção baseada em objeto refere-se aos processos visuais que selecionam uma forma segregada entre várias formas segregadas. Como observamos acima, a segregação do objeto e a atenção baseada no objeto provavelmente estão inter-relacionadas - antes que uma forma possa ser selecionada, as características da forma devem primeiro ser segregadas das características de outras formas até certo ponto. Na Figura 1, antes que um observador pudesse prestar atenção à linha irregular, as características dessa linha devem ser agrupadas (e agrupadas separadamente das características da linha reta). Além disso, a atenção baseada em objeto é mais eficiente quando é direcionada a um único objeto, ou seja, os observadores podem selecionar a linha reta ou a linha irregular com relativamente pouco esforço. Em contraste, é mais difícil dividir a atenção baseada em objeto em vários objetos se um observador precisasse prestar atenção em ambas as linhas, a seleção baseada em objeto seria mais trabalhosa. A atenção baseada em objeto teria que se deslocar entre as duas linhas ou precisaria ser dividida entre as duas linhas. Tanto o deslocamento quanto a divisão da atenção causam declínio no desempenho. Esse declínio no desempenho é a base de muitos efeitos da atenção baseados em objetos relatados na literatura (por exemplo, Baylis & amp Driver, 1993 Behrmann, Zemel, & amp Mozer, 1998 Duncan, 1984, 1993a, 1993b Egly, Driver, & amp Rafal, 1994 Vecera, 1994 Vecera & amp Farah, 1994). Muitos desses efeitos de atenção baseados em objetos são influenciados pela posição espacial dos objetos, indicando que a atenção baseada em objetos pode envolver a seleção de locais agrupados (Vecera, 1994 Vecera & amp Farah, 1994). No entanto, o sistema de coordenadas dessas localizações agrupadas é mal compreendido e nem todas as formas de seleção de objetos podem envolver o atendimento a localizações agrupadas (Vecera & amp Farah, 1994 Lee & amp Chun, no prelo).

Em suma, qualquer descrição de atenção baseada em objeto precisa explicar (1) os processos de segregação que fornecem a entrada para a atenção de objeto e (2) o efeito de seleção de objeto, em que um objeto e todas as suas características são atendidos mais prontamente do que vários objetos (ou vários recursos em objetos diferentes). Agora nos voltamos para as idéias-chave por trás da abordagem da competição tendenciosa que discutiremos em conjunto com os estudos comportamentais da atenção ao objeto. Como as cenas visuais contêm muitos objetos que competem entre si por atenção, o sistema visual deve alocar o processamento para um objeto em detrimento de outros. Essa alocação é obtida enviando o processamento para um objeto. Esse viés fornece uma resolução para a competição entre objetos. Por exemplo, os dois objetos na Figura 1 competem um com o outro por atenção, mas os observadores podem processar seletivamente qualquer uma das linhas, embora nenhuma das linhas tenha uma vantagem de processamento "inerente". O relato da competição tendenciosa tenta explicar como alguns objetos são selecionados em detrimento de outros (ver também Vecera, no prelo).


Resultados

A rede usada neste estudo - VGG-16, (Simonyan e Zisserman, 2014) - é mostrada na Figura 1A e explicada em Materiais e métodos, 'Modelo de rede'. Resumidamente, em cada camada convolucional, a aplicação de um determinado filtro convolucional resulta em um mapa de características, que é uma grade 2-D de neurônios artificiais que representam o quão bem a entrada ascendente em cada local se alinha com o filtro. Cada camada possui vários mapas de recursos. Portanto, um layout 'retinotópico' é construído na estrutura da rede e os mesmos recursos visuais são representados em toda essa retinotopia (semelhante a como as células que preferem uma determinada orientação existem em todos os locais através da retinotopia V1). Esta rede foi explorada em (Güçlü e van Gerven, 2015), onde foi mostrado que as primeiras camadas convolucionais desta CNN são melhores na previsão da atividade de voxels em V1, enquanto as camadas convolucionais tardias são melhores em prever a atividade de voxels no objeto- área occipital lateral seletiva (LO).

Arquitetura de rede e configuração de tarefa de atenção baseada em recursos.

(UMA) O modelo usado é uma rede neural profunda pré-treinada (VGG-16) que contém 13 camadas convolucionais (rotuladas em cinza, número de mapas de recursos fornecidos entre parênteses) e é treinado no conjunto de dados ImageNet para fazer a classificação de objetos de 1000 vias. Todos os filtros convolucionais são 3 × 3. (B) Arquitetura modificada para tarefas de atenção baseadas em recursos. Para realizar nossas tarefas de atenção baseadas em recursos, a camada final que estava implementando a classificação softmax de 1000 vias é substituída por classificadores binários (regressão logística), um para cada categoria testada (dois mostrados aqui, 20 no total). Esses classificadores binários são treinados em imagens ImageNet padrão. (C) Imagens de teste para tarefas de atenção baseadas em recursos. As imagens mescladas (à esquerda) contêm duas imagens ImageNet sobrepostas de forma transparente de categorias diferentes. As imagens de matriz (direita) contêm quatro imagens ImageNet em uma grade 2 × 2. Ambos têm 224 × 224 pixels. Essas imagens são alimentadas na rede e os classificadores binários são usados ​​para rotular a presença ou ausência de uma determinada categoria. (D) Desempenho de classificadores binários. Os gráficos de caixa descrevem valores em mais de 20 categorias de objetos diferentes (mediana marcada em vermelho, a caixa indica os valores do quartil inferior ao superior e os bigodes se estendem por toda a faixa, com exceção dos outliers marcados como pontos). Imagens 'padrão' são imagens ImageNet regulares não usadas no conjunto de treinamento do classificador binário.

A relação entre ajuste e classificação

O modelo de ganho de similaridade de características de atenção postula que a atividade neural é modulada pela atenção na proporção de quão fortemente um neurônio prefere as características atendidas, conforme avaliado por seu ajuste. No entanto, a relação entre o ajuste de um neurônio e sua capacidade de influenciar as leituras a jusante permanece difícil de investigar biologicamente. Usamos nosso modelo hierárquico para explorar essa questão. Fazemos isso usando retropropagação para calcular 'valores de gradiente', que comparamos com curvas de ajuste (consulte Materiais e métodos, 'Cálculos de gradiente de categoria de objeto' e 'Valores de ajuste' para obter detalhes). Os valores de gradiente indicam as maneiras pelas quais as atividades do mapa de características devem mudar para tornar a rede mais propensa a classificar uma imagem como sendo de uma determinada categoria de objeto. Os valores de ajuste representam o grau em que o mapa de características responde preferencialmente às imagens de uma determinada categoria. Se houver uma correspondência entre ajuste e classificação, um mapa de recursos que prefere uma determinada categoria de objeto (ou seja, responde fortemente a ela) também deve ter um valor de gradiente positivo alto para essa categoria. Na Figura 2A, mostramos valores de gradiente e curvas de ajuste para três exemplos de mapas de recursos. Na Figura 2C, mostramos os coeficientes de correlação médios entre os valores de ajuste e os valores de gradiente para todos os mapas de recursos em cada uma das 13 camadas convolucionais. Como pode ser visto, as curvas de ajuste em todas as camadas mostram uma correlação mais alta com os valores de gradiente do que o esperado ao acaso (conforme testado por controles embaralhados), mas essa correlação é relativamente baixa, aumentando entre as camadas de cerca de 0,2 a 0,5.A qualidade geral do ajuste também aumenta com a profundidade da camada (Figura 2B), mas com menos intensidade.

Relação entre ajuste do mapa de recursos e valores de gradiente.

(UMA) Exemplo de valores de ajuste (verde, eixo esquerdo) e valores de gradiente (roxo, eixo direito) de três mapas de recursos diferentes de três camadas diferentes (identificadas em títulos, camadas conforme rotuladas na Figura 1A) ao longo das 20 categorias de objetos testadas. Os valores de ajuste indicam como a resposta a uma categoria difere dos valores do gradiente médio de resposta indicam como a atividade deve mudar para classificar a entrada a partir da categoria. Coeficientes de correlação entre curvas de ajuste e valores de gradiente dados em títulos. Todos os valores de gradiente e ajuste disponíveis na Figura 2 - dados de origem 1 (B) Qualidade de ajuste entre camadas. A qualidade do ajuste é definida por mapa de recursos como o valor de ajuste máximo absoluto desse mapa de recursos. Os gráficos de caixa mostram a distribuição em mapas de recursos para cada camada. Qualidade média de ajuste para dados embaralhados: 0,372 ± 0,097 (este valor não varia significativamente entre as camadas) (C) Coeficientes de correlação entre curvas de ajuste e curvas de valor de gradiente em média sobre mapas de recursos e plotados em camadas (barras de erro ± S.E.M., valores de dados em azul e controles embaralhados em laranja). (D) Distribuições de valores de gradiente quando o ajuste é forte. Em vermelho, histograma de valores de gradiente associados a valores de ajuste maiores do que um (ou seja, para mapas de características que preferem fortemente a categoria), em todos os mapas de características nas camadas 10, 11, 12 e 13. Para comparação, histogramas de valores de gradiente associados com valores de ajuste menores que um são mostrados em preto (as contagens são normalizadas separadamente para visibilidade, já que a população em preto é muito maior do que em vermelho).

Figura 2 - dados de origem 1

Curvas de ajuste de objetos e gradientes.

Mesmo nas camadas mais altas, pode haver sérias discrepâncias entre os valores de ajuste e gradiente. Na Figura 2D, mostramos os valores de gradiente dos mapas de recursos nas quatro camadas convolucionais finais, segregados de acordo com o valor de ajuste. Em vermelho estão os valores de gradiente que correspondem aos valores de ajuste maiores que um (por exemplo, categoria 12 para o mapa de recursos no painel do meio da Figura 2A). Como essas distribuições mostram, valores de ajuste fortes podem ser associados a valores de gradiente fracos ou mesmo negativos. Valores de gradiente negativos indicam que aumentar a atividade desse mapa de recursos torna a rede menos provável de categorizar a imagem como a categoria fornecida. Portanto, mesmo os mapas de características que preferem fortemente uma categoria (e são apenas algumas camadas do classificador) ainda podem não estar envolvidos em sua classificação, ou mesmo estar inversamente relacionados a ela. Isso está alinhado com um estudo recente de ablação de rede neural que mostra que a seletividade da categoria não prevê o impacto na classificação (Morcos et al., 2018).

A atenção baseada em recursos melhora o desempenho em tarefas desafiadoras de classificação de objetos

Para determinar se a manipulação de acordo com os valores de ajuste pode melhorar o desempenho, criamos imagens visuais desafiadoras compostas de vários objetos para a rede classificar. Essas imagens de teste são de dois tipos: mescladas (duas imagens de objeto sobrepostas transparentemente, como em Serences et al., 2004) ou matriz (quatro imagens de objeto organizadas em uma grade) (ver exemplos da Figura 1C). A tarefa da rede é detectar a presença de uma determinada categoria de objeto nessas imagens. Ele faz isso usando uma série de classificadores binários treinados em imagens padrão desses objetos, que substituem a última camada da rede (Figura 1B). O desempenho desses classificadores nas imagens de teste indica que esta é uma tarefa desafiadora para a rede (64,4% nas imagens mescladas e 55,6% na matriz, Figura 1D. A chance é de 50%) e, portanto, uma boa oportunidade para ver os efeitos de atenção.

Implementamos atenção baseada em características nesta rede modulando a atividade das unidades em cada mapa de características de acordo com o quão fortemente o mapa de características prefere a categoria de objeto atendido (consulte Materiais e métodos, 'Valores de ajuste' e 'Como a atenção é aplicada'). Um esquema disso é mostrado na Figura 3A. O declive da função de ativação de unidades em um determinado mapa de recursos é escalado de acordo com o valor de ajuste desse mapa de recursos para a categoria assistida (os valores de ajuste positivos aumentam o declive enquanto os valores de ajuste negativos diminuem). Assim, o impacto da atenção na atividade é multiplicativo e bidirecional.

Efeitos da aplicação de atenção baseada em recursos em tarefas de categoria de objeto.

(UMA) Esquema de como a atenção modula a função de atividade. Todas as unidades em um mapa de recursos são moduladas da mesma maneira. A inclinação da função de ativação é alterada com base no valor de ajuste (ou gradiente), flkc, de um determinado mapa de feições (aqui, o k-ésimo mapa de feições na décima camada) para a categoria assistida, c, junto com um parâmetro de força geral β. I l k i j É a entrada para esta unidade da camada anterior. Para obter mais informações, consulte Materiais e métodos, 'Como a atenção é aplicada'. (B) Aumento médio no desempenho de classificação binária como uma função da camada na qual a atenção é aplicada (linha sólida representa usando valores de ajuste, linha tracejada usando valores de gradiente, barras de erro ± S.E.M.). Em todos os casos, a força de melhor desempenho da faixa testada é usada para cada instância. Desempenho mostrado separadamente para imagens mescladas (esquerda) e matriz (direita). Os gradientes têm desempenho significativo (p & lt .05, N = 20) melhor do que o ajuste nas camadas 5 - 8 (p = 4,6e -3, 2,6e -5, 6,5e -3, 4,4e -3) para imagens mescladas e 5 - 9 (p = 3,1e -2, 2,3e -4, 4,2e -2, 6,1e -3, 3,1e -2) para imagens de matriz. Valores brutos de desempenho na Figura 3 - dados de origem 1.

Figura 3 - dados de origem 1

O desempenho muda com atenção.

Os efeitos da atenção são medidos quando a atenção é aplicada desta forma em cada camada individualmente (Figura 3B linhas sólidas) ou todas as camadas simultaneamente (Figura 3 - suplemento de figura 1A, vermelho). Para ambos os tipos de imagem (mesclada e matriz), a atenção melhora o desempenho e há um claro aumento no aprimoramento de desempenho à medida que a atenção é aplicada nas camadas posteriores da rede (a numeração é como na Figura 1A). Em particular, a atenção aplicada na camada convolucional final tem melhor desempenho, levando a um aumento de 18,8% em pontos percentuais na classificação binária na tarefa de imagens mescladas e de 22,8% na tarefa de imagens de matriz. Assim, os efeitos semelhantes ao FSGM podem ter grandes impactos benéficos no desempenho.

A atenção aplicada em todas as camadas simultaneamente não leva a um melhor desempenho do que a atenção aplicada em qualquer camada individual (Figura 3 - suplemento da figura 1A). Também realizamos um experimento de controle para garantir que o escalonamento inespecífico da atividade não melhore sozinho o desempenho (Figura 3 - suplemento da figura 1C).

Alguns componentes do FSGM são debatidos, por exemplo, se a atenção impacta as respostas de forma multiplicativa ou aditiva (Boynton, 2009 Baruni et al., 2015 Luck et al., 1997 McAdams e Maunsell, 1999), e se a atividade das células que não preferem o estímulo assistido é realmente suprimido (Bridwell e Srinivasan, 2012 Navalpakkam e Itti, 2007). As comparações de diferentes variantes do FSGM podem ser vistas na Figura 3 - suplemento da figura 2. Em geral, os efeitos multiplicativos e bidirecionais funcionam melhor.

Também medimos o desempenho quando a atenção é aplicada usando valores de gradiente em vez de valores de ajuste (esses valores de gradiente são calculados para maximizar o desempenho na tarefa de classificação binária, em vez de classificar a imagem como uma determinada categoria, portanto, tecnicamente eles diferem daqueles mostrados na Figura 2, no entanto, na prática, eles estão fortemente correlacionados. Consulte Materiais e métodos, 'Cálculos de gradiente de categoria de objeto' e 'Valores de gradiente' para obter detalhes). A atenção aplicada com o uso de valores de gradiente mostra a mesma tendência em camadas como ao usar os valores de ajuste. Ele também atinge o mesmo pico de aprimoramento de desempenho quando a atenção é aplicada nas camadas finais. A principal diferença, entretanto, surge quando a atenção é aplicada às camadas intermediárias da rede. Aqui, a atenção aplicada de acordo com os valores de gradiente supera a dos valores de ajuste.

Força da atenção e a compensação entre o aumento de verdadeiros e falsos positivos

Na seção anterior, examinamos os melhores efeitos possíveis da atenção, escolhendo a força de cada camada e categoria que otimizou o desempenho. Aqui, vemos como o desempenho muda à medida que variamos a força geral (β) de atenção.

Na Figura 4A, dividimos o desempenho da classificação binária em taxas de verdadeiros e falsos positivos. Aqui, cada linha colorida indica uma categoria diferente e o aumento do tamanho do ponto representa o aumento da força de atenção. Idealmente, os verdadeiros positivos aumentariam sem um aumento equivalente (e possivelmente com uma diminuição) nas taxas de falsos positivos. Se eles aumentam em conjunto, a atenção não tem um efeito benéfico líquido. Olhando para os efeitos da aplicação de atenção em diferentes camadas, podemos ver que a atenção em camadas inferiores é menos eficaz em mover o desempenho neste espaço e que o movimento é em direções um tanto aleatórias, embora haja um aumento médio no desempenho com força de atenção moderada . Com a atenção aplicada nas camadas posteriores, as taxas de verdadeiros positivos têm maior probabilidade de aumentar para intensidades moderadas de atenção, enquanto aumentos substanciais na taxa de falsos positivos ocorrem apenas com intensidades mais altas. Assim, quando a atenção é aplicada com força modesta na camada 13, a maioria das categorias vê um aumento substancial nos verdadeiros positivos com apenas aumentos modestos nos falsos positivos. Conforme a força continua a aumentar, no entanto, os falsos positivos aumentam substancialmente e, eventualmente, levam a uma diminuição líquida no desempenho geral do classificador (representando o cruzamento da linha pontilhada na Figura 4A).

Efeitos de força de atenção variável

(UMA) Efeito do aumento da força de atenção (β) no espaço de taxa de verdadeiro e falso positivo para atenção aplicada em cada uma das quatro camadas (camada indicada no canto inferior direito de cada painel, atenção aplicada usando valores de ajuste). Cada linha representa o desempenho de uma categoria individual (apenas 10 categorias mostradas para visibilidade), com cada aumento no tamanho do ponto representando um aumento de 0,15 em β. Os valores da linha de base (sem atenção) são subtraídos para cada categoria de forma que todos comecem em (0,0). A linha pontilhada preta representa mudanças iguais nas taxas de verdadeiros e falsos positivos. (B) Comparações de dados experimentais. As taxas de verdadeiro e falso positivo de seis experimentos em quatro estudos publicados anteriormente são mostradas para condições de aumento da força de atenção (linhas sólidas). Cat-Drawings = (Lupyan e Ward, 2013), Exp. 1 Cat-Images = (Lupyan e Ward, 2013), Exp. 2 Objetos = (Koivisto e Kahila, 2017), Letter-Aud. = (Lupyan e Spivey, 2010), Exp. 1 Letter-Vis. = (Lupyan e Spivey, 2010), Exp. 2. Ori-Change = (Mayo e Maunsell, 2016). Consulte Materiais e métodos, 'Dados experimentais' para obter detalhes sobre os experimentos. As linhas pontilhadas mostram os resultados do modelo para imagens mescladas, em média em todas as 20 categorias, quando a atenção é aplicada usando valores de ajuste (TC) ou gradiente (Grad) na camada 13. Os resultados do modelo são mostrados para atenção aplicada com intensidades crescentes (começando em 0, com cada tamanho de ponto crescente representando um aumento de 0,15 em β). A curva de operação do receptor (ROC) para o modelo usando imagens mescladas, que corresponde ao efeito da alteração do limite na camada final de leitura, é mostrada em cinza. Valores brutos de desempenho na Figura 3 - dados de origem 1.

Aplicar a atenção de acordo com os valores de ajuste negados leva a uma diminuição nos valores positivos verdadeiros e falsos com o aumento da força da atenção, o que diminui o desempenho geral (Figura 4 - suplemento de figura 1A). Isso verifica se os efeitos da atenção não são provenientes de mudanças não específicas na atividade.

Experimentalmente, ao alternar de nenhuma atenção ou atenção neutra, os neurônios em MT mostraram um aumento médio na atividade de 7% ao atender sua direção de movimento preferida (e diminuição semelhante ao atender a não preferida) (Martinez-Trujillo e Treue, 2004). Em nosso modelo, quando β = 0,75 (aproximadamente o valor no qual o desempenho atinge o pico nas camadas posteriores Figura 4 - suplemento de figura 1B), dada a magnitude dos valores de ajuste (magnitude média: 0,38), a atenção escala a atividade em uma média de 28,5%. Esse valor se refere a quanta atividade é modulada em comparação com a condição β = 0, que é provavelmente mais comparável à visualização passiva ou anestesiada, já que o engajamento da tarefa mostrou escalar as respostas neurais em geral (Page e Duffy, 2008). Isso complica a relação entre a força da modulação em nosso modelo e os valores relatados nos dados.

Para permitir uma comparação mais direta, na Figura 4B, coletamos as taxas de verdadeiros e falsos positivos obtidas experimentalmente durante diferentes tarefas de detecção de objetos (explicado em Materiais e métodos, 'Dados experimentais'), e os traçamos em comparação com os resultados do modelo quando a atenção é aplicada na camada 13 usando valores de ajuste (linha rosa) ou valor de gradiente (linha marrom). Cinco experimentos (segundo ao sexto estudos) são estudos humanos. Em todas essas tentativas, as tentativas sem sequência são aquelas nas quais nenhuma informação sobre o estímulo visual que se aproxima é fornecida e, portanto, a força da atenção é considerada baixa. Em tentativas com indicação, a categoria a ser detectada é indicada antes da apresentação de um estímulo visual desafiador, permitindo que a atenção seja aplicada a esse objeto ou categoria.

A maioria desses experimentos mostra um aumento simultâneo nas taxas de verdadeiros e falsos positivos à medida que a força da atenção é aumentada. As taxas nas condições não definidas (pontos menores) são geralmente mais altas do que as taxas produzidas pela condição β = 0 em nosso modelo, consistente com as condições neutras correspondentes a β & gt 0. Descobrimos (consulte Materiais e métodos, 'Dados experimentais'), que o valor β correspondente médio para as condições neutras é 0,37 e para as condições atendidas 0,51. Como a atenção dimensiona a atividade em 1 + β f c l k (onde f c l k é o valor de ajuste), essas mudanças correspondem a uma mudança de ≈ 5% na atividade.

O primeiro conjunto de dados incluído no gráfico (linha amarela Ori-Change na Figura 4B) vem de um estudo de detecção de mudança de macacos (consulte Materiais e métodos, 'Dados experimentais' para obter detalhes). Como a dica de atenção era apenas 80% válida, a força da atenção poderia ser de três níveis: baixo (para os estímulos não sequenciados em tentativas com indicação), médio (para ambos os estímulos em tentativas com indicação neutra) ou alto (para os estímulos com indicação em pista ensaios). Como os outros estudos, este estudo mostra um aumento simultâneo nas taxas de verdadeiro positivo (detecção de mudança correta) e falso positivo (resposta prematura) com o aumento da força de atenção. Para que o modelo alcance as mudanças de desempenho observadas entre atenção baixa e média, uma mudança de atividade de aproximadamente 12% é necessária, mas as taxas de disparo V4 médias registradas durante esta tarefa mostram um aumento de apenas 3,6%. Essa discrepância pode sugerir que mudanças nas correlações (Cohen e Maunsell, 2009) ou mudanças na taxa de disparo em áreas além de V4 também trazem contribuições importantes para as mudanças de desempenho observadas.

Assim, de acordo com nosso modelo, o tamanho das mudanças de desempenho observadas experimentalmente é amplamente consistente com o tamanho das mudanças neurais observadas experimentalmente. Embora outros fatores também sejam provavelmente relevantes para as mudanças de desempenho, este alinhamento aproximado entre a magnitude das mudanças na taxa de demissão e a magnitude das mudanças no desempenho apóia a ideia de que o primeiro poderia ser um fator causal importante para o último. Além disso, o fato de que o modelo pode capturar essa relação fornece mais suporte para sua utilidade como um modelo da biologia.

Finalmente, mostramos a mudança nas taxas de verdadeiro e falso positivo quando o limite do classificador binário da camada final é variado (uma análise de "característica de operação do receptor", Figura 4B, linha cinza nenhuma atenção foi aplicada durante esta análise). Comparando isso com a linha rosa, é claro que variar a força da atenção aplicada na camada convolucional final tem efeitos de desempenho mais favoráveis ​​do que alterar o limite do classificador (que corresponde a um efeito aditivo da atenção na camada classificadora). Isso aponta para as limitações que podem surgir da atenção direcionada apenas às áreas de leitura a jusante.

No geral, o modelo corresponde aproximadamente aos experimentos na quantidade de modulação neural necessária para criar as mudanças observadas nas taxas de verdadeiros e falsos positivos. No entanto, está claro que os detalhes da configuração experimental são relevantes, e mudanças além da taxa de disparo e / ou fora do fluxo ventral também provavelmente desempenham um papel (Navalpakkam e Itti, 2007).

A atenção baseada em recursos melhora o desempenho na tarefa de detecção de orientação

Alguns dos resultados apresentados acima, particularmente aqueles relacionados à camada em que a atenção é aplicada, podem ser influenciados pelo fato de estarmos usando uma tarefa de categorização de objetos. Para ver se os resultados são comparáveis ​​usando os estímulos mais simples frequentemente usados ​​em estudos de macacos, criamos uma tarefa de detecção de orientação (Figura 5A). Aqui, classificadores binários treinados em grades orientadas a campo completo são testados usando imagens que contêm duas grades de orientação e cor diferentes. O desempenho desses classificadores binários sem atenção está acima do acaso (distribuição entre as orientações mostradas na inserção da Figura 5A). O desempenho do classificador binário associado à orientação vertical (0 graus) foi anormalmente alto (92% correto sem atenção, outras orientações em média 60,25%. Isso provavelmente reflete a super-representação das linhas verticais nas imagens de treinamento) e esta orientação foi excluída de análises de desempenho adicionais.

Tarefa de atenção e resultados usando grades orientadas.

(UMA) Tarefa de detecção de orientação. Como com as tarefas de detecção de categoria de objeto, classificadores binários separados treinados para detectar cada uma das 9 orientações diferentes substituíram a camada final da rede. As imagens de teste incluíram duas grades orientadas de cores e orientações diferentes localizadas em 2 dos 4 quadrantes. A inserção mostra o desempenho em nove orientações sem atenção (B) Qualidade de ajuste de orientação em função da camada. (C) Coeficiente de correlação médio entre curvas de ajuste de orientação e curvas de gradiente entre camadas (azul). Valores de correlação aleatórios em laranja. Os erros são ± S.E.M. (D) Comparação do desempenho na tarefa de detecção de orientação quando a atenção é determinada por valores de ajuste (linha sólida) ou valores de gradiente (linha tracejada) e aplicados em diferentes camadas. Como na Figura 3B, a força de melhor desempenho é usada em todos os casos. Os erros são ± S.E.M. Os gradientes têm um desempenho significativamente (p = 1,9e -2) melhor do que o ajuste na camada 7. Valores brutos de desempenho disponíveis na Figura 5 - dados de origem 1. (E) Mudança nos valores de detecção de sinal e desempenho (perent correto) quando a atenção é aplicada de maneiras diferentes — espacial (vermelho), recurso de acordo com o ajuste (azul sólido), recurso de acordo com gradientes (azul tracejada) e ambos espacial e recurso (de acordo para ajuste, preto) - para a tarefa de detectar uma determinada orientação em um determinado quadrante. A linha superior é quando a atenção é aplicada na camada 13 e a inferior quando aplicada na camada 4. Valores brutos de desempenho disponíveis na Figura 5 - dados de origem 2.

Figura 5 - dados de origem 1

Desempenho na tarefa de detecção de orientação.

Figura 5 - dados de origem 2

Desempenho em tarefa de atenção espacial e baseada em recursos.

A atenção é aplicada de acordo com os valores de ajuste de orientação dos mapas de recursos (a qualidade do ajuste por camada é mostrada na Figura 5B) e testados entre camadas. Descobrimos (Figura 5D, linha sólida e Figura 3 - suplemento de figura 1B, vermelho) que a tendência nesta tarefa é semelhante à da tarefa de objeto: aplicar atenção em camadas posteriores leva a maiores aumentos de desempenho (aumento de 14,4% em pontos percentuais em camada 10). Isso ocorre apesar do pico de qualidade do ajuste de orientação nas camadas intermediárias.

Também calculamos os valores de gradiente para esta tarefa de detecção de orientação. Embora no geral as correlações entre os valores de gradiente e os valores de ajuste sejam mais baixas (e até mesmo negativas para as camadas iniciais), a correlação média ainda aumenta com a camada (Figura 5C), como com a tarefa de detecção de categoria. É importante ressaltar que, embora essa tendência de correlação exista em ambas as tarefas de detecção testadas aqui, não é um recurso universal da rede ou um artefato de como esses valores são calculados. Na verdade, um padrão oposto na correlação entre o ajuste de orientação e os valores de gradiente é mostrado ao usar a atenção à orientação para classificar a cor de um estímulo com a orientação assistida (consulte 'Gravações mostram como os efeitos de ganho de similaridade de recursos se propagam', e Materiais e métodos, 'Tarefas de atenção com grade orientada' e 'Valores de gradiente').

Os resultados da aplicação da atenção de acordo com os valores do gradiente são mostrados na Figura 5D (linha tracejada). Aqui, novamente, o uso de valor de gradiente cria tendências semelhantes ao uso de valores de ajuste, com valores de gradiente apresentando melhor desempenho nas camadas intermediárias.

A atenção baseada em características influencia principalmente os critérios e a atenção espacial influencia principalmente a sensibilidade

A teoria da detecção de sinais é freqüentemente usada para caracterizar os efeitos da atenção no desempenho (Verghese, 2001). Aqui, usamos uma tarefa de atenção espacial de característica conjunta para explorar os efeitos da atenção no modelo. A tarefa usa os mesmos estímulos de duas grades descritos acima. Os mesmos classificadores de orientação binária são usados ​​e a tarefa do modelo é determinar se uma dada orientação está presente em um determinado quadrante da imagem. O desempenho é então medido quando a atenção é aplicada a uma orientação, um quadrante ou tanto a uma orientação quanto a um quadrante (os efeitos são combinados aditivamente, para mais informações, consulte Materiais e métodos, 'Como a atenção é aplicada'). Duas medições de detecção de sinal chave são calculadas: critérios e sensibilidade. Critérios é uma medida do limite que é usado para marcar uma entrada como positiva, com um critério mais alto levando a menos sensibilidade de positivos é uma medida da separação entre as duas populações (positivas e negativas), com maior sensibilidade indicando uma maior separação.

A Figura 5E mostra que a atenção espacial e com base em recursos influenciam a sensibilidade e os critérios. No entanto, a atenção baseada em recursos diminui os critérios mais do que a atenção espacial. Intuitivamente, a atenção baseada em recursos muda as representações de todos os estímulos na direção da categoria atendida, diminuindo implicitamente o limiar de detecção. Partindo de um limite alto, isso pode levar ao padrão de comportamento observado em que os verdadeiros positivos aumentam antes que os falsos positivos. A sensibilidade aumenta mais para a atenção espacial sozinha do que para a atenção baseada em características sozinhas, indicando que a atenção espacial amplifica as diferenças na representação de quaisquer características que estejam presentes. Essas tendências gerais se mantêm independentemente da camada na qual a atenção é aplicada e se a atenção baseada em recursos é aplicada usando curvas de ajuste ou gradientes. Mudanças nas taxas de verdadeiros e falsos positivos para esta tarefa podem ser vistas explicitamente na Figura 5 - suplemento 1 da figura.

Em linha com nossos resultados, a atenção espacial foi encontrada experimentalmente para aumentar a sensibilidade e (menos confiável) diminuir os critérios (Hawkins et al., 1990 Downing, 1988). Além disso, a atenção baseada em características é conhecida por diminuir os critérios, com efeitos menores sobre a sensibilidade (Rahnev et al., 2011 Bang e Rahnev, 2017 embora veja Stein e Peelen, 2015). Um estudo que olhou explicitamente para os diferentes efeitos da atenção espacial e baseada em categorias (Stein e Peelen, 2017) descobriu que a atenção espacial aumenta a sensibilidade mais do que a atenção baseada em categorias (mais visível em seu Experimento 3c, que usa imagens naturais), e os efeitos dos dois são aditivos.

Atenção e priming são conhecidos por impactar a atividade neural além das áreas sensoriais puras (Krauzlis et al., 2013 Crapse et al., 2018). Essa ideia é corroborada por um estudo que teve como objetivo isolar as alterações neurais associadas às mudanças de sensibilidade e critérios (Luo e Maunsell, 2015). Neste estudo, os autores desenvolveram tarefas comportamentais que encorajaram mudanças na sensibilidade ou critérios comportamentais exclusivamente: alta sensibilidade foi encorajado pela associação de um determinado local de estímulo com uma recompensa geral mais alta, enquanto os critérios altos eram encorajados por recompensar as rejeições corretas mais do que os acertos (e vice-versa para sensibilidade / critérios baixos). Diferenças na atividade neural V4 foram observadas entre os ensaios usando estímulos de alta e baixa sensibilidade. Não foram observadas diferenças entre os ensaios usando estímulos de alto e baixo critério. Isso indica que as áreas fora do fluxo ventral (ou pelo menos fora de V4) são capazes de impactar os critérios (Sridharan et al., 2017). É importante ressaltar que isso não significa que as mudanças na V4 não afetem os critérios, mas apenas que essas mudanças podem ser contrabalançadas pelo impacto das mudanças em outras áreas. Na verdade, para criar sessões em que a sensibilidade fosse variada sem qualquer mudança nos critérios, os autores tiveram que aumentar a recompensa de rejeição correta relativa (ou seja, aumentar os critérios) em locais de alta recompensa absoluta, o que pode ter sido necessário para combater uma diminuição nos critérios induzida por mudanças relacionadas à atenção em V4 (da mesma forma, eles tiveram que diminuir a recompensa de rejeição correta em locais de baixa recompensa). Nosso modelo demonstra claramente como esses efeitos de áreas sensoriais por si só podem afetar o desempenho da detecção, o que, por sua vez, destaca o papel que as áreas a jusante podem desempenhar na determinação do resultado comportamental final.

As gravações mostram como os efeitos de ganho de similaridade de recursos se propagam

Para explorar como a atenção aplicada em um local na rede impacta a atividade mais tarde, aplicamos a atenção em várias camadas e 'registramos' a atividade em outras (Figura 6A, em resposta a grades orientadas para o campo completo). Em particular, registramos a atividade dos mapas de características em todas as camadas enquanto aplicamos a atenção nas camadas 2, 6, 8, 10 ou 12 individualmente.

Como as mudanças na atividade induzida pela atenção se propagam pela rede.

(UMA) Configuração de gravação. A média espacial da atividade dos mapas de características em cada camada foi registrada (à esquerda) enquanto a atenção foi aplicada nas camadas 2, 6, 8, 10 ou 12 individualmente. A atividade foi em resposta a uma grade totalmente orientada para o campo. (B) Esquema da métrica usada para testar o modelo de ganho de similaridade de recursos. A atividade quando uma determinada orientação está presente e atendida é dividida pela atividade quando nenhuma atenção é aplicada, fornecendo um conjunto de proporções de atividades. Ordenar essas proporções da orientação mais para a menos preferida e ajustar uma linha a elas fornece os valores de inclinação e interceptação plotados em (C) Os valores de interceptação são plotados em termos de como eles diferem de 1, portanto, os valores positivos são uma interceptação maior que 1. (FSGM prevê inclinação negativa e interceptação positiva). (C) A inclinação mediana (linha sólida) e os valores de interceptação (linha tracejada) conforme descrito em (B) plotado para cada camada quando a atenção é aplicada à camada indicada pela cor da linha como rotulado em (UMA) À esquerda, atenção aplicada de acordo com os valores de ajuste e à direita, atenção aplicada de acordo com os valores do gradiente. Inclinação bruta e valores de interceptação ao usar curvas de ajuste disponíveis na Figura 6 - dados de origem 1 e para gradientes na Figura 6 - dados de origem 2. (D) Fração de mapas de recursos exibindo o comportamento de correspondência de recursos em cada camada quando a atenção é aplicada na camada indicada pela cor da linha. Mostrado para atenção aplicada de acordo com o ajuste (linhas sólidas) e valores de gradiente (linha tracejada).

Figura 6 - dados de origem 1

Intercepta e inclina a partir da atenção aplicada ao gradiente.

Figura 6 - dados de origem 2

Intercepta e inclina a partir da atenção aplicada à curva de ajuste.

Para entender as mudanças de atividade que ocorrem em cada camada, usamos uma análise de (Martinez-Trujillo e Treue, 2004) que foi projetada para testar os efeitos do tipo FSGM e é explicada na Figura 6B. Aqui, a atividade de um mapa de características em resposta a uma determinada orientação quando a atenção é aplicada é dividida pela atividade em resposta à mesma orientação sem atenção. Essas proporções são organizadas de acordo com a preferência de orientação do mapa de características (do mais para o menos) e uma linha se ajusta a eles. De acordo com o FSGM de atenção, essa relação deve ser maior que um para as orientações mais preferidas e menor que um para as menos preferidas, criando uma linha com interceptação maior que um e declive negativo.

Na Figura 6C, plotamos o valor mediano das inclinações e interceptações em todos os mapas de feições em uma camada, quando a atenção é aplicada em diferentes camadas (indicadas pela cor). Quando a atenção é aplicada diretamente em uma camada de acordo com seus valores de ajuste (esquerda), os efeitos FSGM são vistos por padrão (os valores de interceptação são plotados em termos de como eles diferem de um valor médio comparável de (Martinez-Trujillo e Treue, 2004) são interceptar: 0,06 e inclinação: 0,0166, mas observe que estamos usando β = 0 para a condição sem atenção no modelo que, como mencionado anteriormente, não é necessariamente o melhor análogo para condições sem atenção experimentalmente. Portanto, usamos essas medidas para mostrar efeitos qualitativos). À medida que essas mudanças de atividade se propagam através da rede, no entanto, os efeitos FSGM desaparecem, sugerindo que a ativação de unidades sintonizadas para um estímulo em uma camada não ativa necessariamente as células sintonizadas para aquele estímulo na próxima. Este desalinhamento entre o ajuste em uma camada e a próxima explica por que a atenção aplicada em todas as camadas simultaneamente não é mais eficaz (Figura 3 - figura suplemento 1). Na verdade, aplicar atenção a uma categoria em uma camada pode realmente ter efeitos que neutralizam a atenção em uma camada posterior (consulte a Figura 6 - figura do suplemento 1).

Na Figura 6C (direita), mostramos a mesma análise, mas aplicando atenção de acordo com os valores do gradiente. Os efeitos na camada em que a atenção é aplicada não se parecem muito com o FSGM, no entanto, as propriedades do FSGM evoluem à medida que as mudanças de atividade se propagam pela rede, levando a efeitos claros do tipo FSGM na camada final. Encontrar o comportamento semelhante ao FSGM em dados neurais pode, portanto, ser um resultado de efeitos FSGM nessa área ou efeitos não FSGM em uma área anterior (aqui, atenção aplicada de acordo com gradientes que, especialmente em camadas anteriores, não estão alinhados com o ajuste).

Um modelo alternativo dos efeitos neurais da atenção - o modelo de correspondência de características (FM) - sugere que o efeito da atenção é amplificar a atividade de um neurônio sempre que o estímulo em seu campo receptivo corresponde ao estímulo atendido. Na Figura 6D, calculamos a fração de mapas de recursos em uma determinada camada que mostra o comportamento de correspondência de recursos (definido como tendo taxas de atividade maiores do que um quando a orientação do estímulo corresponde à orientação assistida para ambas as orientações preferidas e anti-preferenciais). Já em uma camada pós-atenção, alguns mapas de recursos começam a mostrar o comportamento de correspondência de recursos. O fato de que a literatura de atenção contém descobertas conflitantes em relação ao modelo de ganho de similaridade de características versus o modelo de correspondência de características (Motter, 1994 Ruff e Born, 2015) pode resultar desta descoberta de que os efeitos FSGM podem se transformar em efeitos FM à medida que se propagam pela rede. Em particular, este mecanismo pode explicar as observações que apresentam comportamento de correspondência é observado mais em FEF do que V4 (Zhou e Desimone, 2011) e que as informações de correspondência são mais facilmente lidas no córtex peririnal do que em TI (Pagan et al., 2013).

Também investigamos até que ponto as medidas dos efeitos neurais da atenção se correlacionam com as mudanças no desempenho (consulte Materiais e métodos, 'Correlacionando as mudanças de atividade com o desempenho'). Para isso, desenvolvemos uma maneira nova e experimentalmente viável de calcular os efeitos da atenção na atividade neural que é inspirada pela abordagem baseada em gradiente para a atenção (ou seja, ela se concentra na classificação em vez de no ajuste). Mostramos (Figura 6 - suplemento da figura 2) que esta nova medida se correlaciona melhor com as mudanças de desempenho do que a medida FSGM de mudanças de atividade, particularmente nas camadas anteriores.

Existe um experimento simples que distingue se fatores além do ajuste, como gradientes, desempenham um papel na orientação da atenção. Requer o uso de duas tarefas com objetivos muito diferentes (que devem produzir gradientes diferentes), mas com a mesma dica de atenção. Um exemplo é descrito na Figura 7. Aqui, as duas tarefas usadas seriam uma tarefa de classificação de cores baseada em orientação (duas grades, cada uma com sua própria cor e orientação são mostradas simultaneamente, e a tarefa é relatar a cor da grade com o orientação assistida) e uma tarefa de detecção de orientação (relatar se a orientação assistida está presente ou ausente na imagem). Em ambos os casos, a atenção é determinada de acordo com a orientação. Mas a atenção baseada em gradiente produzirá modulações neurais diferentes para as duas tarefas, enquanto o FSGM prevê modulações idênticas (Figura 7C). Assim, um experimento que registrou os mesmos neurônios durante as duas tarefas poderia distinguir entre atenção baseada em ajuste e atenção baseada em gradiente.

Um experimento proposto para distinguir entre atenção baseada em ajuste e atenção baseada em gradiente

(UMA) Tarefa de atenção "cruzada". Aqui, a camada final da rede é substituída por um classificador de cores e a tarefa é classificar a cor da orientação assistida em um estímulo de duas orientações. É importante ressaltar que, tanto nesta tarefa quanto na de detecção de orientação (Figura 5A), um sujeito que realiza a tarefa seria instruído a atender a uma orientação. (B) O coeficiente de correlação entre os valores de gradiente calculados para esta tarefa e os valores de ajuste de orientação (como na Figura 5C). Picos de correlação em camadas inferiores para esta tarefa. (C) Correlação entre os valores de ajuste para as duas tarefas (azul) e entre os valores de gradiente para as duas tarefas (laranja). Se a atenção direcionar as células com base no ajuste, a modulação seria a mesma na tarefa de classificação de cores e na tarefa de detecção de orientação. Se uma segmentação baseada em gradiente for usada, nenhuma (ou mesmo uma ligeira anti) correlação é esperada. Valores de ajuste e gradiente disponíveis na Figura 7 - dados de origem 1.

Figura 7 - dados de origem 1

Curvas e gradientes de ajuste de orientação.


Agradecimentos

Os autores agradecem a Micah Murray pelos comentários úteis sobre o artigo. Eles também agradecem a Nora Turoman, Alex Huth, Diane Quinn (© 2015 Trevor Day School) e Bridgette Archer (na ordem de exibição da imagem, superior esquerdo para inferior direito) por fornecerem imagens de diferentes imagens cerebrais e métodos de mapeamento e ambientes de teste incluídos na Figura 1. PJM recebeu apoio da Swiss National Science Foundation (bolsa PZ00P1_174150), bem como da Pierre Mercier Foundation e da Fondation Asile des Aveugles. A pesquisa de S. D. é apoiada pelo programa da Organização Holandesa para Pesquisa Científica Veni (bolsa 275-89-018), a National Science Foundation INSPIRE Track 1 (bolsa 1344285) e NSF ECR-STEM (bolsa 1661016). C. P. é apoiado pelo Sir Henry Wellcome Postdoctoral Fellowship do Wellcome Trust (bolsa 110238 / Z / 15 / Z) e A. G. H., pelo Career Award na Scientific Interface da Burroughs-Wellcome Foundation.


MÉTODOS

Participantes

Trinta voluntários jovens saudáveis ​​[idade média ± desvio padrão (SD) = 25,6 ± 3,5 anos] e 30 voluntários saudáveis ​​mais velhos (idade média ± SD = 61,2 ± 4,6 anos) que passaram por extensas avaliações clínicas participaram deste estudo. A avaliação de recrutamento incluiu uma história completa e exame físico, um exame neurológico detalhado, a Entrevista Clínica Estruturada para DSM-IV (SCID First, Spitzer, Gibbon, & amp Williams, 1994), WAIS-R, uma avaliação neuropsicológica e uma ressonância magnética cerebral clínica Varredura. Os critérios de exclusão incluíram história atual ou pregressa de distúrbios neurológicos ou psiquiátricos, tratamento médico relacionado ao metabolismo cerebral ou fluxo sanguíneo ou história de abuso de drogas. Os dois grupos foram pareados quanto à lateralidade (25 destros em cada grupo, conforme medido pelo Edinburgh Handedness Inventory Oldfield, 1971), sexo (16 homens em cada grupo), raça (29 caucasianos, 1 asiático em cada grupo) e inteligência quociente (IQ) [obtido usando o grupo mais velho da Weschler Adult Intelligence Scale, média ± SD = 116 ± 8,1 grupo jovem, média ± SD = 116.0 ± 7.4 F(1, 59) = 0.08, p = 0,78]. Os participantes mais velhos também foram submetidos a uma avaliação neuropsicológica completa para avaliar o estado cognitivo e excluir o declínio cognitivo patológico (ver Tabela 1). Uma análise secundária foi realizada em participantes que também foram comparados quanto ao desempenho, além dos dados demográficos acima em ambos os grupos. Esta análise consistiu em 32 participantes (16 jovens e 16 mais velhos) dos 60 originais que foram pareados por sexo (8 homens em cada grupo), destreza (13 destros em cada grupo), raça (1 asiático em cada grupo), e IQ [grupo mais velho, média ± SD = 117,9 ± 7,2 grupo jovem, média ± SD = 116.0 ± 7.5 F(1, 31) = 0.55 p = .46].

Status neuropsicológico de participantes mais velhos

Neuropsicologia / Teste Neurológico . M (SD) . n .
Status Cognitivo
Miniexame do estado mental (MMSE) 30.0 (0.2) 22
Composto Executivo
Trail Making Test B (seg) 72.1 (30.6) 30
Teste de Fluência de Palavras 48.5 (11.9) 29
Teste de Fluência de Categoria 54.3 (11.1) 29
Sequenciamento de letras e números 11.9 (2.4) 30
WAIS-IQ 116.6 (8.1) 30
Composto de Memória
Recuperação Imediata da Memória Lógica WMS-R 12.4 (2.6) 26
WMS-R Logical Memory Delayed Recall 13.8 (2.5) 26
Composto de velocidade de processamento
Teste de trilha A (s) 32.2 (13.6) 30
Neuropsicologia / Teste Neurológico . M (SD) . n .
Status Cognitivo
Miniexame do estado mental (MMSE) 30.0 (0.2) 22
Composto Executivo
Trail Making Test B (seg) 72.1 (30.6) 30
Teste de Fluência de Palavras 48.5 (11.9) 29
Teste de Fluência de Categoria 54.3 (11.1) 29
Sequenciamento de letras e números 11.9 (2.4) 30
WAIS-IQ 116.6 (8.1) 30
Composto de Memória
Recuperação Imediata da Memória Lógica WMS-R 12.4 (2.6) 26
WMS-R Logical Memory Delayed Recall 13.8 (2.5) 26
Composto de velocidade de processamento
Teste de trilha A (s) 32.2 (13.6) 30

Todos os participantes foram submetidos a fMRI durante a execução de uma codificação incidental e tarefa de recuperação de memória. Todos os participantes deram consentimento informado por escrito, que foi aprovado pelo Conselho de Revisão Institucional do Instituto Nacional de Saúde Mental.

Paradigma Experimental

Cada participante passou por BOLD fMRI durante a codificação e recuperação de cenas aversivas e neutras selecionadas do International Affective Picture System (Lang, Bradley, & amp Cuthbert, 2005). Para ambas as sessões de codificação e recuperação, as cenas foram apresentadas de forma bloqueada com dois blocos de cenas aversivas / neutras alternando com blocos de estado de repouso. Durante os blocos experimentais, seis cenas de valência semelhante (neutra ou aversiva) foram apresentadas em série aos participantes por 3 segundos cada. De um estudante t O teste revelou que as cenas aversivas selecionadas foram classificadas como significativamente menos agradáveis ​​e mais excitantes do que as cenas neutras selecionadas, conforme determinado por classificações padronizadas descritas em Lang et al. (2005) [prazer (média ± SD aversivo = 3,1 ± 0,9 neutro = 5,8 ± 1,1) excitação (média ± SD aversivo = 5,9,1 ± 0,7 neutro = 3,03 ± 0,8) p & lt .0001 para cada medida]. Em um estudo recente, Backs, da Silva e Han (2005) relataram que não houve diferença significativa nas avaliações dos participantes mais velhos (idade média ± SD: 66,3 ± 5,6 anos) em comparação com participantes mais jovens (idade média ± SD: 20,0 ± 2,3 anos) ao avaliar estímulos com valência negativa do conjunto de imagens International Affective Picture System obtido por Lang et al. (2005). Durante os blocos de repouso, os participantes foram solicitados a atender a uma cruz de fixação apresentada no centro da tela por 18 segundos. Esses blocos de fixação foram tratados como linha de base nas análises de fMRI. Durante a sessão de codificação, os participantes foram instruídos a determinar se cada imagem representava uma cena “interna” ou “externa”. Durante a sessão de recuperação, os participantes foram instruídos a determinar se a cena apresentada foi vista durante a sessão de codificação; os participantes foram instruídos a pressionar o botão direito para cenas vistas antes durante a sessão de codificação (ou seja, "antigo") ou pressionar o botão esquerdo para cenas não vistas durante a sessão de codificação (ou seja, “novo”). Em cada sessão de recuperação, metade das cenas eram antigas (ou seja, apresentadas durante a sessão de codificação), enquanto a outra metade era nova (ou seja, não apresentadas durante a sessão de codificação). Cada sessão (codificação ou recuperação) consistiu em 17 blocos (quatro aversivas, quatro neutras e nove condições de repouso). Os participantes concluíram toda a sessão de codificação antes de iniciar a sessão de recuperação após um breve atraso (cerca de 2 minutos). Antes de cada sessão, os participantes receberam instruções verbais, e cada corrida foi precedida por uma breve tela de instruções de 2 segundos com um tempo total de varredura de 5 minutos e 40 segundos. Para a sessão de codificação, a apresentação de cenas “internas” e “externas” e, para a sessão de recuperação, a apresentação de cenas “antigas” e “novas” foi contrabalançada dentro de cada bloco. Além disso, a ordem de apresentação dos blocos aversivos e neutros foi contrabalançada entre os participantes. Todos os participantes responderam pressionando botões com a mão dominante. A precisão comportamental e RTs foram registrados. Esta tarefa demonstrou envolver de forma confiável o hipocampo, bem como os córtices inferotemporal, parietal e frontal em voluntários saudáveis ​​(Bertolino et al., 2006 Meyer-Lindenberg et al., 2006 Hariri et al., 2003).

Aquisição de fMRI

BOLD fMRI foi realizada em um scanner General Electric 3-Tesla Signa (Milwaukee, WI) usando uma sequência de imagem gradiente-eco, eco-planar. Vinte e quatro cortes axiais cobrindo todo o cérebro e a maior parte do cerebelo foram adquiridos em uma sequência intercalada com 4 mm de espessura e uma lacuna de 1 mm (TR / TE = 2000/28 mseg, FOV = 24 cm, matriz = 64 * 64). Os parâmetros de varredura foram selecionados para otimizar a qualidade do sinal BOLD, mantendo um número suficiente de fatias para adquirir dados de todo o cérebro.

Análise de dados

Análise Comportamental

Análises fatoriais unilaterais de variância (ANOVAs) foram realizadas nos dados comportamentais para explorar os efeitos da idade e da valência do estímulo na precisão (ACC) e RT para as sessões de codificação e recuperação. ANOVAs de duas vias também foram realizados para avaliar uma interação Idade por Valência nessas medidas. Limiares estatísticos para significância foram estabelecidos em p & lt .05.

Análise Funcional de Imagem

A análise das imagens foi concluída usando SPM2 (www.fil.ion.ucl.ac.uk/spm). Para cada sessão (codificação e recuperação), as imagens subsequentes foram realinhadas à primeira imagem da série para corrigir o movimento da cabeça. Essas imagens foram então normalizadas espacialmente para o modelo MNI usando uma interpolação B-spline de quarto grau. Em seguida, as imagens foram suavizadas usando um kernel isotrópico de 8 mm 3 de largura total e meio máximo. Cada conjunto de dados individual foi cuidadosamente selecionado para qualidade de dados usando uma variedade de parâmetros, incluindo inspeção visual para artefatos de imagem, estimativa de índices para artefatos fantasmas, relação sinal-ruído em toda a série temporal, variação de sinal em sessões individuais e movimento da cabeça (dados dos participantes com movimento da cabeça maior que 3 mm e / ou rotação da cabeça maior que 2 ° foram excluídos).

Para ambas as sessões de codificação e recuperação, as respostas de fMRI foram modeladas usando o Modelo Linear Geral (GLM) com uma função de resposta hemodinâmica canônica convolvida para uma função de vagão para o comprimento do bloco, normalizada para o sinal global em todo o cérebro e temporalmente filtrado para remover sinais de baixa frequência (& lt84 Hz). Os regressores foram modelados para condições de interesse (para sessão de codificação: codificação aversiva e codificação neutra para sessão de recuperação: recuperação aversiva e recuperação neutra), bem como seis regressores de movimento da cabeça sem interesse. Usando este modelo GLM, t mapas de contraste foram gerados para contrastes de interesse: codificação aversiva e linha de base gt, codificação neutra e linha de base gt, codificação aversiva e codificação gt neutra, recuperação aversiva e linha de base gt, recuperação neutra e linha de base gt e recuperação aversiva e recuperação gt neutra.

As análises de efeitos aleatórios de segundo nível foram realizadas usando uma amostra t testes para explorar o efeito principal da tarefa para as condições de codificação aversiva, codificação neutra, recuperação aversiva e recuperação neutra. Para a sessão de codificação, o t opção de contraste sob uma ANOVA em SPM2 foi realizada para avaliar o efeito principal da valência de estímulo [(mais velho aversivo + jovem aversivo) & gt (mais velho neutro + jovem neutro)], o efeito da idade [(jovem aversivo + jovem neutro) & gt (mais velho aversivo + mais velho neutro) e (mais velho aversivo + mais velho neutro) & gt (jovem aversivo + jovem neutro)], e o efeito de Idade por Valência [jovem (aversivo & gt neutro) & gt mais velho (aversivo & gt neutro) mais velho (aversivo & gt neutro) & gt jovem (aversivo & gt neutro)]. Para a sessão de recuperação, para controlar uma diferença significativa no desempenho, o t A opção de contraste sob uma análise de covariância (ANCOVAs) em SPM2 usando ACC e RT como covariáveis ​​sem interesse foi realizada para avaliar o efeito da valência do estímulo, o efeito da idade e um efeito da Idade por Valência. Todas as ANOVAs acima foram inclusive mascaradas com mapas de conjunção do efeito de interesse em p & lt .05, não corrigido.

Dada a forte evidência de um papel importante da amígdala durante o processamento da memória emocional (Dolcos, LaBar, & amp Cabeza, 2004b, 2005), uma medida de conectividade funcional foi estimada para avaliar a conectividade cerebral residual entre a amígdala e outras regiões do cérebro após o ajuste para atividades relacionadas a tarefas (Bertolino et al., 2006 Pezawas et al., 2005 Meyer-Lindenberg et al., 2001). Esta medida quantifica a covariação da atividade neural entre a atividade mediana (após o sinal médio e a correção do desvio) de uma semente na amígdala e o resto dos voxels no cérebro ao longo da série temporal. As regiões de sementes na amígdala foram construídas usando um processo de duas etapas. Primeiro, uma máscara de voxels significativamente ativos (p & lt .05, FDR corrigido) para o efeito principal da tarefa foi criado separadamente para sessões de codificação e recuperação em todos os participantes. Em seguida, as sementes foram construídas determinando os voxels funcionalmente ativos de cada indivíduo (p & lt .05) dentro da máscara acima. Em seguida, mapas de conectividade individuais (mapas de covariância) foram criados correlacionando as séries temporais da amígdala com as séries temporais dos voxels no resto do cérebro. Erro, ou seja, o termo residual no modelo GLM, foi usado após o ajuste para efeitos de tarefa e confunde (por exemplo, sinal global e parâmetros de realinhamento) para estimar o acoplamento funcional entre as regiões do cérebro (ver Caclin & amp Fonlupt, 2006 Pezawas et al., 2005 para obter mais detalhes sobre esta abordagem). Acredita-se que o acoplamento funcional estimado dessa maneira reflita a conectividade inerente entre as regiões do cérebro, em vez de correlações mediadas pela tarefa. Essa análise foi realizada separadamente para as sessões de codificação e recuperação.

Para avaliar as correlações entre os dados funcionais e o comportamento, regressões simples foram realizadas usando mapas de contraste de primeiro nível do participante individual do GLM e precisão. Para correlações de conectividade funcional-comportamento, os valores de conectividade de cada indivíduo foram normalizados para a amostra da média usando um Fisher r para z transformar antes de entrar na regressão. As estimativas dos parâmetros beta ponderados e valores de conectividade funcional foram extraídos de voxels significativos (p & lt .05, não corrigido) dentro de ROIs usando a caixa de ferramentas MARSBAR (http://marsbar.sourceforge.net) e exportado para STATISTICA 6 (www.statsoft.com) para calcular Pearson's r para análise unilateral.

Os limites estatísticos para todas as análises de imagem foram definidos em p & lt .005 (não corrigido) dentro de ROIs anatômicas (veja abaixo) e p & lt .001 para todas as outras regiões. Resultados que sobreviveram p & lt .05, corrigido para comparações múltiplas (corrigido por FDR, conforme descrito por Genovese, Lazar, & amp Nichols, 2002) são indicados nas tabelas. Todos os dados relatados foram mantidos em um limite de extensão do cluster de k & gt 5.

Dadas as evidências anteriores de mudanças relacionadas à idade nos circuitos subjacentes à memória episódica, ROIs da formação do hipocampo (hipocampo / parahipocampo) e a amígdala foram criadas usando o PICKATLAS da Universidade Wake Forest.


Assista o vídeo: Wziął igłę i przebił dłoń na wylot! #4 (Janeiro 2022).