SEMINARIO “HACIA EL ANALISIS DE LAS IMAGENES”

Prof. Juan A. Magariños de Morentin

 

 

KOSSLYN, Stephen M.

Image and Brain. The Resolution of the Imagery Debate

(Imagen y cerebro. Resolución del debate sobre la imaginería[1])

Cambridge: The MIT Press (1996)

 

Traducción: Juan Magariños de Morentin

(Los números entre paréntesis remiten a las páginas de la edición original)


 

 

Cap. 1

Resolver los debates sobre la imagen

 

(1) Las imágenes como forma básica de cognición. El papel central de la imagen: Platón y los Asociacionistas Británicos. La primera psicología experimental le negó carácter de objeto de conocimiento científico.

(2) Dificultad de las imágenes mentales, como de todos los acontecimientos mentales, para mostrarse públicamente; no dejan rastros; ¿cómo medirlas?; ¿cómo caracterizar su naturaleza?

Los conductistas negaron su existencia (el artículo de Watson). La caída del conductismo radical, el interés por el estudio del “aprendizaje verbal”, la necesidad de los acontecimientos internos entre los chomskyanos y en Inteligencia Artificial, fueron algunas razones por las que las imágenes volvieron al foco de atención de los psicólogos.

(3) La tarea de Paivio (quien descubrió que la habilidad para aprender un conjunto de palabras se podía predecir bien, estableciendo lo fácilmente que se podían visualizar sus referentes); la de Shepard, Cooper y sus colaboradores: sus investigaciones demostraron definitivamente que las complejas propiedades de las imágenes podían estudiarse científicamente y proporcionaron credibilidad a la existencia, no sólo de las imágenes mentales, sino también de las complejas operaciones que podrían transformarlas de distintos modos. Los experimentos dieron vida a la idea de que las imágenes son representaciones internas que reemplazan (“stand-in for”) (re-presentan [sic]) a los correspondientes objetos.

 

LOS DEBATES SOBRE LA IMAGINERIA

La ambigüedad de la expresión “imágenes mentales” y el interés de los psicólogos focalizado en un sólo aspecto: el papel de las imágenes en el procesamiento de la información, no en su fenomenología. Este libro se centrará en la naturaleza de los acontecimientos internos que subyacen a la experiencia de “ver con los ojos de la mente”; no se tomarán en cuenta la cualidades de la propia experiencia. El término “imagen” se referirá a la representación interna utilizada en el procesamiento de la información, no a la experiencia misma.

Importancia del interés de los investigadores en programar (4) una computadora para simular imágenes.

El debate puede dividirse en las siguientes etapas:

1: tipos alternativos de las representaciones mentales que puedan sustentar las imágenes;

2: análisis de la naturaleza de los resultados obtenidos en la primera etapa y posible cuestionamiento metodológico de los experimentos;

3: respuesta a los posibles problemas metodológicos y conceptuales con un retorno a los hechos acerca de las funciones cerebrales.

 

Fase 1: representaciones mentales alternativas

Problema: cómo se representa la información en la mente cuando se experimentan sensaciones visuales mentales. Un tipo dado de representación mental se corresponde con un método determinado usado por el cerebro para almacenar información. Las propiedades de las representaciones deben definirse necesariamente en el contexto de un sistema de procesamiento, que incluye las representaciones y los procesos que pueden interpretarlas y manipularlas.

Como demostró Marr (1982), representaciones diferentes producen diferente información a la que se accede y usa fácilmente en un sistema de procesamiento. Considérese, por ejemplo, la diferencia entre el diseño A y la descripción “dos (5) líneas diagonales simétricas que se encuentran en lo alto y que están unidas, aproximadamente por la mitad, mediante una línea horizontal”. La diferencia entre esas dos clases de representaciones corresponde a la diferencia entre una representación figurativa y una proposicional.

Una representación proposicional es una “oración mental” que especifica sin ambigüedad el significado de una aserción. Tal representación debe contener una relación, a la que por lo general se la denomina un predicado. Esta relación une entre sí una o más entidades, a las que se denomina argumentos. Los elementos básicos de una representación proposicional son símbolos.

Una representación figurativa es un tipo de figura que especifica las ubicaciones y los valores de configuraciones de puntos en el espacio.  El espacio en el que aparecen los puntos no necesita ser físico, sino que puede ser como una formación en una computadora, que especifica las relaciones espaciales de modo puramente funcional. En una representación figurativa, cada parte de un objeto se representa mediante una configuración de puntos y las relaciones espaciales entre esas configuraciones en el espacio funcional se corresponden con las relaciones espaciales entre las propias partes. Las representaciones figurativas transportan el significado mediante su semejanza con un objeto, con partes de la representación correspondiéndose con partes del objeto. En este caso, una “parte” puede definirse arbitrariamente, desmenuzando la representación de algún modo; no importa cómo se la corte, la parte siempre se corresponderá con una parte del objeto.

Las dos clases de representaciones son muy distintas. Cuando se usa un representación figurativa (6) no sólo está inmediatamente disponible para el adecuado proceso la forma de las partes representadas, sino que también lo está la forma del espacio vacío. Además no se puede representar una forma en un representación figurativa sin especificar también un tamaño y una orientación, pero fácilmente se puede utilizar una representación proposicional sin mencionar nunca tamaño ni orientación. Además, las representaciones figurativas no representan a los predicados explícitamente; en vez de ello, la relación entre “argumentos” emerge de las ubicaciones espaciales de los objetos y partes representados. En esta forma de representación, el elemento básico es un punto situado en determinado lugar, como opuesto a un símbolo abstracto.

Mucha confusión rodeaba esta fase de los debates sobre la imaginería. El tema no era si la gente experimenta imágenes visuales mentales. Todas las partes coinciden en que sí. El tema no era si las representaciones proposicionales se usan a veces en la cognición. Todos coinciden en que sí. Y el tema no era si las imágenes son exclusivamente representaciones figurativas. Todos coinciden en que para que una figura (una imagen mental o gráfica) tenga significado, debe interpretarse de un modo específico, el cual incluye un componente proposicional. El tema era si las imágenes visuales mentales dependen de representaciones figurativas (las que a su vez se interpretaban mediante otros procesos) o si son exclusivamente representaciones proposicionales.

El debate lo inicia Pylyshyn (1973) atacando la idea misma de las representaciones mentales figurativas; argumenta que las imágenes visuales mentales no pueden ser figurativas porque no hay un “hombrecito” mirándolas, no hay una luz para hacerlo, etc. Su ataque inicial reposaba en supuestos problemas lógicos con la idea de representaciones figurativas y afirmó que todas las representaciones internas son proposicionales. Para él, el mismo tipo de representaciones se usan en la imaginería y en el lenguaje; en realidad, en todo proceso cognitivo. Sostenía que los aspectos figurativos de la experiencia de la imaginería no tiene nada que ver con la naturaleza de la representación que interviene en el procesamiento de la información. Pylyshyn afirmaba que las propiedades figurativas evidentes a la introspección son “epifenoménicas”; estas propiedades son como el calor de un flash de fotografía (“flashlight”), que no juega ningún papel para realizar la función del instrumento, iluminar.

(7) Muchos resultados provienen de experimentos diseñados para estudiar las propiedades privilegiadas de las representaciones figurativas, que no comparten las proposicionales; estas propiedades surgen del hecho de que una figura es un conjunto de puntos en un espacio funcional. Experimentos acerca del “barrido mental” (scanning) se centraron en el hecho de que las representaciones figurativas usan el “espacio funcional” para representar el espacio real, mientras que las representaciones proposicionales no lo hacen. Formulé la hipótesis de que si las imágenes visuales mentales eran modelos en un espacio funcional, entonces se requeriría más tiempo para desplazar la atención a mayores distancias a través de los objetos imaginados; el barrido fue una especie de cinta métrica para mostrar la distancia realmente incorporada en la representación.

Los proposicionalistas sugirieron que los resultados no reflejan el tiempo del barrido a través de los objetos en las imágenes figurativas sino más bien el tiempo para recorrer las listas mentales de proposiciones.

 

(8)(9) Fase 2: ¿Problemas metodológicos?

Se debatieron dos tipos de posibles problemas metodológicos: primero, Pylyshyn sugirió (1981) que el hecho de decirles a los sujetos que usaran imágenes podía conducirlos a intentar mimetizar lo que harían en la situación perceptual correspondiente.

(10) El segundo fue propuesto por Intons-Peterson (1983) quien objetó que los experimentos fracasaron porque los experimentadores habían inducido inconscientemente a los sujetos a producir los resultados esperados.

 

 

(11)(12) Fase 3: más allá de los resultados comportamentales.

En parte, el debate se obstruyó porque los datos comportamentales típicamente pueden explicarse con facilidad mediante más de una única teoría. Anderson (1978) llegó a probar que siempre se puede formular una teoría proposicional que mimetice otra figurativa. Se apoya en la penetrante posibilidad de los trueques de estructuras-procesos. Una teoría figurativa y otra proposicional pueden producir los mismos resultados porque la diferencia en la estructura se compensa con una diferencia en el proceso que actúa sobre ella. Para salir del dilema: fijar las propiedades de la estructura o del proceso apelando a otros datos diferentes de los comportamentales.

(13) [Modo de manejar la experiencia por Kosslyn y sus colegas] Hallazgos en la neuroanatomía y neurofisiología de los simios. Casi la mitad de las áreas visuales están configuradas retinotópicamente. O sea, las neuronas, en el área cortical, están organizadas para preservar la estructura (a grandes rasgos) de la retina. La demostración fuerte de que el propio córtex está organizado espacialmente no ocurrió hasta que los investigadores comenzaron a informarse acerca de las neuronas y configuraron sus campos receptivos (un campo receptivo de una neurona es la parte del campo visual en el cual la neurona registrará un estímulo). Estos investigadores encontraron que estímulos contiguos caen en campos receptivos de neuronas contiguas.

(14)(15) Otro importante descubrimiento: casi toda área visual, en el simio, que envía fibras a otra área visual también recibe fibras de ella. Por ejemplo, se ha demostrado convincentemente en los simios, que la actividad neuronal está modulada por los objetivos e intenciones del animal.

Estos aspectos neuroanatómicos sugieren que la información visual almacenada puede evocar un modelo de actividad en algunas, al menos, de las áreas retinotópicamente configuradas, que producirían una imagen mental.

(16) Figura 1.3 (mostrando que el área V1 está proyectada retinotópicamente en los humanos).

(17) También se ha demostrado que las partes del cerebro usadas en la percepción visual se utilizan también en las imágenes visuales mentales. Se realizaron dos tipos de estudios. Primero, se probaron pacientes con daños en el cerebro. Segundo, se midió la actividad cerebral mientras los sujetos usan las imágenes visuales mentales para cumplir sus tareas y se encontró activación en áreas cerebrales usadas en la percepción visual.

[Experiencias de Kosslyn y colegas sobre letras de distinto tamaño o vistas en distinta aproximación]. (18) Razonamos que cuando se imagina una letra de tamaño pequeño, las neuronas en una pequeña región de un área configurada topográficamente tendrían que trabajar más para preservar la variación espacial fina, comparado con cuando se imagina una letra más grande.

(19) Para el actual objetivo, lo importante es que las imágenes dependen de las regiones del córtex, topográficamente organizadas, que sostienen las representaciones figurativas.

(20) A primera vista, estos hallazgos sugieren que las imágenes se basan en representaciones figurativas, dado que tales representaciones ocurren en el córtex topográficamente organizado. ¿Será un epifenómeno?

Si la actividad en V1 fuera epifenoménica, el daño en esta área no afectaría a las imágenes mentales.

En resumen, se dispone de buena evidencia acerca de que las imágenes no son puramente proposicionales, sino que más bien se basan en representaciones figurativas.

 

 

RESOLVER LOS DEBATES SOBRE LA IMAGINERÍA

(21) El debate sobre las imágenes sólo puede resolverse mediante una comprensión relativamente completa de las imágenes.

El resto de este libro se centra en este amplio objetivo, comprender cómo las imágenes figurativas se producen en el cerebro y como las usan los mecanismos neuronales en servicio de la memoria y de otros procesos cognitivos.

 

Plan del libro

(22)(23)(24)

 

 

 

                  

 

 

 

Cap. 2

Tallando las articulaciones de un sistema

 

(25) ¿Cómo surgen y se utilizan las imágenes mentales? Necesitamos ver cómo clases particulares de información se convierten en clases particulares de resultados (outputs). A las “cajas negras” que realizan esa proyección información/resultado las llamo subsistemas de procesamiento.

El último objetivo es conocer el proceso visual tan bien que se pueda programar una computadora para imitar al cerebro. [Más realistamente:] pretendo entender el proceso visual y los principio que gobiernan sus interacciones lo suficiente como para imitar, a grandes rasgos, tal proceso en una computadora.

 

SUBSISTEMAS DE PROCESAMIENTO

Se caracterizan por su función. Más precisamente como realizando cálculos. Un cálculo es una proyección sistemática entre entradas y salidas interpretables.

(26) Todo mecanismo puede calcularse, con tal que el la información y el output sean interpretables y que haya una correspondencia sistemática entre el la información y el output.

En el cerebro, la interpretación del la información visual depende, en definitiva, de su relación con las propiedades físicas de los objetos en el mundo. Caracterizaré cada subsistema de procesamiento especificando: 1) la información que recibe un conjunto de neuronas, 2) la operación que realizan sobre la información y 3) el output que producen (el cual, a su vez, sirve de información de entrada para otros subsistemas de procesamiento).

Asumo que los cálculos se cumplen mediante “redes neuronales” (también conocidas como “sistemas de procesamiento distribuidas en paralelo” o “sistemas conexionistas”). Los modelos de tales redes aceptan, como entrada, un vector binario (secuencia de 1 y 0) y producen otro vector binario como output. Quizás el principio básico que subyace en la operación de las redes neuronales es el de cumplir con lo impuesto. Aunque las entradas de los subsistemas pueden contener con frecuencia ruido (algunos valores de los elementos pueden estar determinados al azar), funcionan con eficacia porque las redes intentan (27) reconciliar todos los aspectos de la información de entrada con una única interpretación.

Dicho brevemente, las unidades de los modelos pueden dividirse en tres tipos: entrada, “oculto” (“hidden”) y salida. La información para la red es un modelo de actividad sobre las unidades de la entrada, un vector. Cada unidad de información de entrada está conectada con una o más unidades ocultas y la solidez de cada conexión se ajusta durante el entrenamiento. Las conexiones con carga positiva fuerte (excitatorias) trasmiten mayor activación a la unidad receptora que las conexiones con cargas más débiles. De modo semejante, las conexiones con carga negativa fuerte (inhibitorias) inhiben la actividad de la unidad receptora más de lo que lo hacen las conexiones con carga negativa más débil. Cada unidad oculta se activa en proporción a la activación total que le llega desde las unidades de la entrada. Cada unidad oculta, a su vez, está conectada con una o más unidades de output, que son como las unidades ocultas pero que reciben su información desde las unidades ocultas más que directamente desde las unidades de entrada. Si una unidad de output recibe un total de activación por encima de determinado umbral, está “on” (activada). En general, a cada unidad de output le corresponde una única (28) respuesta. Por ejemplo, si se presenta un conjunto de formas, en el la información (que puede ser una matriz, representando las formas mediante modelos de unidades “on” y “off”), cada unidad del output se corresponde con el nombre[2] de una forma individual.

Estas redes están entrenadas de modo que “aprenden” a realizar una determinada proyección entrada/salida. Al principio, cargas al azar se ubican en las conexiones. La red comienza actuando por azar. En cada prueba, un “maestro” compara el output con el output esperado. Si un output dado fue off (desactivado) y debió haber sido on, se calcula la diferencia entre su valor y 1 (el valor esperado) y se ajustan las cargas en todas las conexiones que conducen a esta unidad de output, para reducir la disparidad entre lo observado y lo esperado. Este proceso se cumple gradualmente, de modo que no se eliminen otras asociaciones construidas en la red (p.e., con otras formas como entrada). Por ejemplo, Lehky & Sejnowski (1988) entrenaron una red par calcular la forma a partir de variaciones en el sombreado.

 

(29) Modularidad débil

Es conveniente contrastar lo que aquí se propone con los “módulos” propuestos por Fodor (1983). Para Fodor, un módulo es una especie de reflejo cognitivo; es una caja-negra autocontinente que actúa del mismo modo respecto de determinada entrada, sin tomar en cuenta lo que esté pasando en el sistema. Un módulo no es “cognitivamente penetrable” [modularidad fuerte]. [Para el supuesto de Kosslyn] tales componentes parecer ser sólo débilmente modulares. Este supuesto se basa en las siguientes observaciones:

1. Penetrabilidad. Uno de los aspectos más sorprendentes del sistema visual es el hecho de que casi todas las áreas que envían proyecciones a otras áreas reciben, a su vez, proyecciones desde esas áreas. La retroalimentación es la regla. La interferencia entre componentes sugiere la utilidad de adoptar el concepto de Simon (1981) de los subsistemas casi descomponibles. [El ejemplo de las habitaciones y los cubículos, cada uno con la temperatura elegida por su habitante y de modo que al final de la jornada se apagan todos los termostatos. De una temperatura relativamente general, horas después de haberse apagado, hasta una temperatura diferencial al rato de estar funcionando los termostatos. La mejor comprensión del sistema es como constituido por sistemas casi descomponibles.]

(30) 2. Interdependencia funcional. Los subsistemas de procesamiento pueden caracterizarse a múltiples niveles de escala, con subsistemas groseros que especifican la actividad conjunta de una cantidad de subsistemas más precisos que trabajan juntos para obtener una proyección entrada/salida. El estado de un subsistema (caracterizado a un nivel relativamente burdo) puede afectar los trabajos internos de otro, violando la noción de modularidad fuerte de Fodor.

3. Transiciones crecientes. Los subsistemas que trabajan juntos para realizar un cálculo determinado o un conjunto de cálculos deben tener “conexiones compatibles” (be “plug compatible”); el output de uno deberá proveer de la información útil a, por lo menos, otro.

4. Localización anatómica. Estos subsistemas no necesitan corresponder siempre a grupos de neuronas que estén en partes contiguas del cerebro, pero supongo que al menos algunas porciones de las redes están localizadas habitualmente en lugares acotados del cerebro.

(31) Sin embargo, es importante observar que no todas las neuronas que componen un subsistema necesitan estar en la misma localización anatómica. Damasio (1989) sugiere que lo que está localizado son zonas de convergencia. Estas son regiones donde la información sirve para provocar respuestas asociativas, incluida la retroalimentación para aumentar la propio entrada. Todas las otras partes de las redes neuronales pueden entrelazarse y pueden compartir substratos neuronales comunes.

5. Implementación superpuesta. Esto no implica que los loci neuronales estén dedicados a un único tipo de procesamiento. Subsistemas de procesamiento diferentes pueden implementarse superponiendo regiones neuronales. Incluso, al menos en algunos casos, las mismas neuronas pueden participar en calcular más de un tipo de información y, bajo ciertas circunstancias, una neurona puede incluso cambiar la red a la que contribuye, según diversos factores.

Esto no implica que un subsistema calcule más de una función. Más bien, concibo el conjunto de proyecciones entrada/salida efectuadas por una red como la función que ésta cumple; (32) en realidad, una definición “extensional” de una función es simplemente la lista de todos los emparejamientos entrada/salida que produce.

 

 

 

Interacciones entre subsistemas

 

Es suficiente con formular dos supuestos generales.

Procesamiento concurrente. Durante la cognición normal, cada uno de los subsistemas se encuentra siempre operando. Este supuesto tiene dos aspectos: primero, cada red no “espera”, en una secuencia, a que terminen las redes anteriores, antes de empezar a abocarse al procesamiento. Los subsistemas constantemente proyectan todo lo que reciben hacia el output correspondiente. Por ello, con frecuencia, los subsistemas operan sobre entradas parciales o degradados y producen outputs parciales o degradados para el siguiente subsistema en línea (actúan “en cascada”). Segundo, los subsistemas están, a veces, organizados en corrientes paralelas diferentes.

Cálculo cooperativo. El uso de retroalimentación concurrente está en el centro del “cálculo cooperativo”. El cálculo cooperativo ocurre cuando un subsistema, posterior en una secuencia, ayuda a un subsistema anterior en la secuencia. Parece plausible que las conexiones recíprocas en el sistema visual hayan evolucionado inicialmente con este propósito, más que para usarlas en la imaginería per se.

(33) Nuestras habilidades perceptuales, cognitivas y motrices parecen producidas por una confluencia de mecanismos diferentes trabajando en conjunto. Estos mecanismos son generativos; pueden producir una cantidad infinita de cogniciones y comportamientos.

Uno de los principales métodos que uso para formular hipótesis acerca de la existencia de subsistemas diferentes es la eficiencia calculatoria. Según el principio de división del trabajo, dos subsistemas diferentes pueden existir si las proyecciones que realizan pueden  cumplirse más eficientemente mediante redes diferentes que mediante una única red.

Esto le debe mucho a David Marr. Marr desarrolló en detalle la idea general de que la función del cerebro puede entenderse como un cálculo y proporcionó algunos buenos ejemplos del enfoque calculatorio. Una de sus ideas más importantes es el concepto de una teoría del cálculo

Es útil considerar a la teoría de lo que se calcula mediante un subsistema de procesamiento como teniendo cuatro aspectos que pueden entenderse mejor en el contexto de un caso específico.

1. Especificar el objetivo de un cálculo. Por ejemplo, una habilidad fundamental del sistema visual es separar la figura del fondo.

(34) 2. Caracterizar el propio problema. Esto depende del objetivo y de la información que está disponible en la entrada. En este ejemplo, la pregunta es acerca de qué aspectos del la información pueden usarse para aislar figuras.

3. Caracterizar la operación necesaria para derivar la salida de la entrada. Marr observó que existe una propiedad de la información que sirve como una guía para los bordes: los cambios rápidos en intensidad. (“Zero-crossings”, que indica ubicaciones donde la segunda derivada de esta función cambia de signo, lo que indica una rápida transformación en el nivel de intensidad.)

4. Especificar los "supuestos" que deben aceptarse para que se produzca el apropiado output sobre la base de la entrada. Cualquier imagen en la retina puede haber surgido de un número infinito de objetos. Marr reconoce esta ambigüedad y asume que un sistema debe adoptar determinados “supuestos” para que tenga éxito un cálculo. Por ejemplo, debe asumirse que los objetos reales reflejan la luz de modo que la técnica del “cruzamiento-cero” especifique los bordes. Si se viola este supuesto, podemos detectar bordes donde no los hay. En realidad, las fotografías funcionan porque violan este supuesto, lo que nos lleva a ver objetos donde no los hay.

 

 

 

(35) Reconsideración del método de Marr

 

Fue el primero en sistematizar la idea de una teoría del cálculo.

Según Marr, las teorías del cálculo están en la cima de una jerarquía de tres niveles. Una teoría de un cálculo especifica qué se calcula. La siguiente bajada de nivel es una teoría del algoritmo, que especifica cómo se calcula un cálculo. Al tercer nivel se especifica cómo se realiza realmente el algoritmo en el cerebro.

Mis críticas: primero, la diferencia entre la teoría del cálculo y el algoritmo (qué vs. cómo) no es clara.

(36) Parecería claro que la noción de qué versus cómo es relativa a dónde uno se ubica.

Podría argumentarse que la distinción adecuada se plantea entre las caracterizaciones que requieren especificar la naturaleza de la representación versus las caracterizaciones que no requieren especificar tales representaciones. Sin embargo, incluso esta distinción entre el nivel del cálculo (qué y cómo, libre de representación) y el nivel del algoritmo y la representación es problemática. Marr propuso que las representaciones visuales deben hacer explícitas importantes propiedades acerca del mundo, permanecer estables mas allá de diversas perturbaciones de la entrada, ser sensibles respecto de aspectos críticos de la entrada, etc. El problema es que diferentes cálculos serán más o menos viables según qué representaciones estén disponibles en un sistema.

(37) Lo segundo y, quizás, lo más fundamental, se centra en la separación entre trabajar a nivel calculatorio (a cualquier nivel de grano grueso) y trabajar a nivel de la implementación. Marr parece decir, a veces, que se puede trabajar a nivel calculatorio sin preocuparse por el nivel de la implementación.

 

El triángulo de la neurociencia cognitiva

 

El enfoque de Marr puede reconstruirse según el triángulo de la figura 2.1.

 

 

       Habilidades

 

 

 

 

 

 


 

                 Cálculo                                                                    Cerebro

 

 

 

 


 

     Análisis        Modelos                          Actividad Neuronal        Áreas y Conexiones

                                                                       (Neurofisiología)             (Neuroanatomía)

 

 

Un rasgo importante del triángulo es que cada aspecto interactúa directamente con los restantes. Yo comenzaré con caracterizaciones relativamente toscas en los tres dominios y, después, circundaré el triángulo para refinar la teoría; además, especificaré las habilidades del sistema y consideraré las implicaciones respecto de los cálculos subyacentes, lo que, a su vez, conduce a las preguntas adicionales acerca del substrato neuronal. Y cuando se encuentra una información adicional acerca del substrato neuronal, el análisis calculatorio se modifica y se consideran habilidades adicionales, que con frecuencia conducen a un experimento para probar una predicción y así en adelante. Avanzo y retrocedo entre las diferentes clases de hechos y análisis, permitiendo que se informen mutuamente entre sí.

En resumen, utilizo el concepto de satisfacción de restricciones de tres modo. Primero, intento hacer la teoría mutuamente consistente con las habilidades de sistema observado, con los análisis calculatorios y los hechos acerca del substrato neuronal. Segundo, asumo que las redes individuales operan mediante la satisfacción de restricciones: toman un la información y lo proyectan sobre el output más consistente con todas (39) las características de la entrada. Este es un rasgo común de los modelos de redes neuronales. Tercero, postulo subsistemas de procesamiento que sean mutuamente consistentes unos con otros; estos subsistemas trabajan juntos para producir las habilidades observadas.

 

 

(38)(39) CONSIDERACIONES METODOLÓGICAS

 

La teoría que se desarrolla en este libro se funda en la investigación empírica. Esta investigación descansa principalmente sobre seis tipos de método.

 

1. Tiempo de respuesta y proporción de errores

 

Se pide a protagonistas humanos  que realicen una tarea determinada y se informa acerca de su tiempo de respuesta y la proporción de error.

 

(40) 2. Estudios sobre el campo visual dividido

 

La parte izquierda de cada retina se proyecta sobre el hemisferio cerebral izquierdo y la parte derecha sobre el hemisferio derecho (sólo inicialmente se presenta ante un único hemisferio; después de 15 ms., la información alcanza los dos hemisferios).

Los estudios sobre el campo visual dividido son interesantes por dos razones: Primero, se probaría que hay buena evidencia acerca de que no son subsistemas idénticos los que producen las dos habilidades.  Segundo, tales datos puede proporcionar alguna evidencia acerca de la localización anatómica de un subsistema.

 

(41)(42) 3. Déficits provenientes de daños cerebrales

 

El daño cerebral perturba el proceso de auto-información y el comportamiento consiguiente.

Sin embargo, el daño no altera la actuación de subsistemas aislados. (43) El procesamiento y las disfunciones comportamentales pueden surgir de otras muchas razones: primero, subsistemas intactos pueden usarse de nuevas maneras a consecuencia de un daño cerebral.

Segundo, los subsistemas pueden modificarse.

Tercero, es posible que nuevas redes neuronales se desarrollen a consecuencia del daño.

Cuarto, viejas estrategias pueden usarse en nuevos contextos.

Quinto, en algunas situaciones, disociaciones que deberían estar presentes puede no estarlo, porque los subsistemas dañados interactúan para enmascarar los efectos.

Sexto, la mayoría de la gente con daño cerebral queda retardada; el daño perturba conexiones de retroalimentación córtico-subcortical que son esenciales para la agudeza mental.

 

 

 

(44)(45) 4. Activación cerebral

 

Otro conjunto de métodos implica que una persona tenga que realizar una tarea, midiéndose la actividad del cerebro en lugares determinados. Hay diversas técnicas, cada una con sus fortalezas y sus debilidades.

(45) EEG (electroencefalografía), ERP (potenciales referidos a eventos, “evenst-related potentials”) y MEG (magnetoencefalografía)

133Xe rCBF (flujo de sangre cerebral regional, “regional cerebral blood flow”; requiere inhalar 133Xe, un gas radioactivo inerte) y SPECT (tomografía por emisión de fotón único, “single photon emission tomography”)

(46) PET (tomografía por emisión de positrones, “positron emission tomography”)

(47) fMRI (imagen funcional por resonancia magnética, “functional magnetic resonance imaging”)

 

(48)(49) 5. Lesiones en el cerebro de animales

Algunos investigadores remueven partes del cerebro de animales y etudian los cambios que resultan en el comportamiento.

 

6. Estudios de información de célula-única de animales

Pueden insertarse microelectrodos tanto en una neurona como entre varias. Tales estudios correlacionan la respuesta de la neurona o neuronas con las propiedades del estímulo específico.

 

(50) La necesidad de reunir evidencias

 

Ningún método por sí solo es ideal. Esto sugiere dos conclusiones generales. Primero, exige que se dependa de evidencia convergente, obtenida utilizando múltiples metodologías.

Segundo, se comenta que Sir Arthur Eddington decía: “Nunca confíes en un hallazgo empírico que no haya sido confirmado por la teoría” (51)(52)

 

 

 

 

 

 

 

 

(53) Cap. 3

Visión de alto nivel

 

Se pueden describir los mecanismos de la retina con un detalle muy preciso pero, hasta el momento, sólo pueden decirse generalidades acerca del procesamiento cortical superior, responsable de la memoria visual.

El procesamiento visual de bajo nivel se guía exclusivamente por la información de los estímulos. En contraste, el procesamiento visual de alto nivel descansa en información previamente almacenada acerca de las propiedades de objetos y acontecimientos. Por definición, los procesos que producen y utilizan imágenes visuales mentales dependen de esos mecanismos de alto-nivel. Durante la percepción, esos mecanismos operan sobre el output desde los procesos de bajo-nivel.  [No obstante], los procesos de alto-nivel afectan el total procesamiento cortical de la información visual y quizá incluso algunos de los procesos subcorticales que intervienen entre la retina y el córtex. Los procesos visuales de alto-nivel tienen efectos profundos y penetrantes durante la percepción. Sostendré que la imaginería juega un papel importante durante la percepción ordinaria.

 

(54) IMAGINERÍA Y PERCEPCIÓN

 

La percepción es mucho más fácil de estudiar que la imaginería mental.

Los recientes hallazgos neuropsicológicos han revelado que a los mecanismos de la percepción visual también se los utiliza en la imaginería mental visual.

 

Hallazgos comportamentales

 

Los investigadores han tratado de demostrar, al menos desde principios de siglo, que la imaginería y la percepción comparten mecanismos comunes.

(55) [Resultados de diversos investigadores que] dejan claro que las imágenes interfieren con la percepción a un nivel relativamente “central” de procesamiento.

La imaginería también puede interferir con la propia habilidad para percibir objetos que se presentan con ruido visual.

Por otra parte, la imaginería, a veces, puede facilitar la percepción visual, más que interferirla.

(56) El efecto McCullough (efectos secundarios de orientación específica, a partir del color) puede inducirse mediante la imaginería.

(57) Freyd & Finke (1984) mostraron que un “contexto” imaginado y el contexto percibido correspondiente pueden tener efectos semejantes sobre una discriminación perceptual.

La imaginería puede inducir una variedad de ilusiones perceptuales.

Hay abundante evidencia de que se utilizan procesos comunes para evaluar modelos imaginados y percibidos.

 

(58) Resultados neuropsicológicos

 

La imaginería afecta selectivamente el área V1. La imaginería visual abastece los mecanismos cerebrales usados en la percepción visual.

(59) Los pacientes con el síndrome de abandono de la visión unilateral (“unilateral vision neglect”) ignoran [ignore (“neglect”)] la mitad del espacio contralateral al de la lesión (habitualmente, el lado izquierdo del espacio; las lesiones del lóbulo parietal derecho son la causa más común de este síndrome). Estos pacientes se caracterizan por no poder reproducir (“copy”) la mitad de los objetos; no pueden afeitarse la mitad de la cara, etc. El síndrome es particularmente interesante porque está acompañado frecuentemente de anosognosia, una falta de conciencia de ese déficit. Estos pacientes tampoco pueden “ver” la mitad izquierda de los objetos en las imágenes mentales.

(60) En resumen, actuamos con seguridad al asumir que la imaginería visual comparte los mecanismos con la percepción visual; estudiaremos los mecanismos visuales de alto nivel usados en la percepción visual y observaremos cómo diversas características de la imaginería surgen de este sistema.

 

 

 

 

EL PROBLEMA DE LA IDENTIFICACION DE OBJETOS: CINCO CLASES DE HABILIDADES

 

Cuando se ha identificado un estímulo, se sabe más a su respecto de lo que se manifiesta en la propia entrada. Esto se obtiene activando la información almacenada que se aplica al objeto.

El mundo es un lugar altamente variable y, habitualmente, se pueden identificar fácilmente nuevas versiones de los objetos en nuevas circunstancias. Podemos identificar objetos en las siguientes circunstancias.

 

1. Ubicaciones y distancias diferentes (ángulos visuales)

 

Se pueden identificar objetos cuando sus posiciones cambian respecto de cualquier otro o de sí mismo. Esta habilidad tiene dos aspectos principales:

1. Identificar objetos cuando sus imágenes de la información de entrada abarcan ángulos visuales diferentes (distancias y tamaños diferentes).

2. Identificar objetos cuando sus imágenes de la información de entrada caen en lugares diferentes de la retina; (61) esta habilidad ha sido llamada “problema de equivalencia de estímulos a través de la traslación retinal”.

Estas habilidades se han asociado con las constancias perceptuales. El tema es que se puede acceder a las memorias apropiadas bajo diversas circunstancias.

 

2. Variaciones de forma

 

Si sólo se pudieran identificar los objetos individuales específicos que se han visto previamente, el mecanismo subyacente a la identificación de objetos sería de un uso limitado. La generalización es parte y parcela de nuestra habilidad para identificar objetos; se puede identificar objetos aun cuando sus formas no se correspondan exactamente con las formas de los objetos previamente vistos. (62) Esta habilidad tiene los siguientes aspectos principales.

1. Identificar objetos cuando se los ha visto desde diferentes perspectivas (“vantage points”) (p.e., la rotación).

2. Identificar objetos cuando varían las formas de sus partes (p.e., diferentes modelos de sillas).

3. Identificar objetos cuando varían las relaciones espaciales entre sus partes (p.e., diferentes posiciones de una persona).

4. Identificar objetos que contienen o no partes o características opcionales (p.e., el perro sin cola; objetos fotografiados en blanco y negro; un rostro con barba o cicatrices).

 

3. Input empobrecido

 

No siempre se ven los objetos bajo circunstancias ideales. Con frecuencia hay que ejercitar las siguientes habilidades.

1. Identificar objetos que están parcialmente ocultos.

2. Identificar objetos cuando la imagen está degradada (mala luz o malas condiciones atmosféricas; (63) dibujado o esbozado).

3. Identificar objetos que están muy cerca. Sólo vemos alrededor de 2 grados de ángulo visual (aproximadamente, el tamaño del pulgar visto con el brazo extendido) con alta resolución y con fijación de un único ojo.

 

 

 

4. Instancias específicas

 

No siempre se generaliza, sino que, algunas veces, se registran diferencias entre ejemplares individuales de un objeto. En particular, se tienen las siguientes habilidades.

1. Identificar objetos específicos (mi gato y el de la vecina). El sistema visual no sólo puede ignorar variaciones que son irrelevantes para identificar un objeto como miembro de una clase, sino también cambiar el criterio y convertir a tales variaciones en relevantes.

2. Identificar relaciones espaciales específicas (cambio de lugar de los muebles en una habitación).

 

5. Objetos y escenarios

 

Raramente se ve un objeto completamente aislado. La habilidad que se requiere tiene distintos aspectos.

1. Identificar múltiples objetos en una única mirada (“single fixation”). Sin llegar a mover los ojos, (64) los individuos han identificado el contexto al mismo tiempo que el propio objeto.

2. Identificar múltiples objetos “automáticamente”. No se busca intencionalmente cada objeto individual; el sistema visual identifica “automáticamente” más de un único objeto en cada mirada.

 

PEQUEÑO COMIENZO: EL PAPEL DE UN PROTOMODELO

 

[En este caso] tiene sentido comenzar con unas pocas ideas centrales, defenderlas y construir sobre esos fundamentos. Llamo a esta teoría minimalista un protomodelo.

 

Exigencias neuroanatómicas básicas

 

La primera estructura neuronal: la retina.

Las células sensibles a la luz envían la información de entrada a las células ganglionales, las que, a su vez, retroproyectan las entradas al cerebro.

4 clases de células ganglionales; 2 tipos vienen siendo muy estudiados actualmente: las células magnocelulares (M) y las parvocelulares (P).

Las células magnocelulares (M) (65) responden mejor al movimiento y a los estímulos trasitorios.

Las parvocelulares (P) tienen mejor resolución espacial y responden al color.

Las dos clases se proyectan hacia diferentes capas en el núcleo geniculado lateral (LGN) del tálamo.

Actualmente se sugiere que no se corresponden con funciones totalmente diferentes; las células M propagan la resolución temporal del sistema; las células P propagan la resolución espacial y la sensibilidad de la longitud de onda del sistema.

Las células ganglionales se proyectan en el córtex a lo largo de dos caminos principales: el camino geniculoestriado establece sinapsis primero en el LGN y luego con la primera área visual cortical (V1); el camino tectopulvinar establece sinapsis primero en el colliculus superior y después con el pulpinar (otro núcleo en el tálamo) y después se proyecta más difusamente por el córtex.

El camino geniculoestriado tiene un papel especial en la identificación de objetos.

El camino tectopulvinar  tiene un papel especial en la orientación espacial.

El área V1 es la primera área cortical que recibe la información directamente del LGN, pero no es, en modo alguno, la única área cortical involucrada en la visión. (66)(67)[gráficos y desarrollos]

 

(68) Siete subsistemas

 

Razonar acerca de cómo construir un dispositivo que pueda identificar los objetos en las circunstancias esbozadas en la sección anterior y que tenga las propiedades del cerebro me condujo a configurar la visión de alto-nivel conforme a los siete componentes principales que se ilustran en la figura 3.5.

 

(69) El protomodelo en la identificación del objeto visual. [Ver Figura 3.5 El Protomodelo] Cuando la mayoría de la gente empieza a pensar en el problema de la identificación de objetos, el primer mecanismo en el que se piensa es el contraste de patrones (“template matching”). Un patrón[3], en este sentido, es el modelo almacenado de una forma. La idea consiste en suponer que se tiene, en la memoria, un patrón de cada forma familiar y, cuando se ve un objeto, su imagen de la información se compara con el patrón; el patrón que más se superpone con la imagen se selecciona como la mejor copia.

Este enfoque se deja de lado apenas se estudia nuestra habilidad para identificar objetos cuando varían sus formas.

Una propuesta para resolver este problema es almacenar un patrón diferente por cada forma posible. (70) La memoria humana tiene una capacidad verdaderamente pavorosa para almacenar información. El problema está en que vemos constantemente formas nuevas y las podemos identificar siempre.

La gente encuentra a la visión tan simple que los investigadores confían, al principio, en que será fácil programar una computadora  para ver. La razón por la que la visión nos resulta tan simple es que venimos equipados con una enorme cantidad de maquinaria sofisticada. Esas habilidades innatas son nuestras para ser usadas; NO NECESITAMOS APRENDER A VER [el destacado es mío]. Los siguientes componentes son los rasgos clave de esta arquitectura innata.

 

1. La memoria visual intermedia (“The Visual Buffer”). La información proveniente de los ojos produce la configuración de una actividad en un conjunto de áreas visuales topográficamente organizadas.

 

2. La ventana de atención (“The Attention Window”). La organización espacial de la memoria visual intermedia también permite que una “ventana de atención” seleccione la información a partir de un conjunto de puntos contiguos para un procesamiento detallado.

 

3. El sistema ventral (“The Ventral System”). El sistema ventral es un conjunto de áreas del cerebro que baja desde el lóbulo occipital hasta el lóbulo temporal inferior. Las células de esta área responden a las propiedades del objeto, tales como forma, color y textura. Las células en las áreas “superiores” (mas distantes a lo largo del flujo del procesamiento) de este sistema dan cuenta de un objeto cuando éste se encuentra en una amplia gama de posiciones, lo que indica, presumiblemente, que los estímulos, en un amplio rango de posiciones, pueden compararse con la información almacenada.

 

(71) 4. El sistema dorsal (“The Dorsal System”). Al considerar un amplio margen de ubicaciones como equivalentes, el sistema ventral deja de lado información que es crítica para el alcance y la navegación (“for reaching and navigation”). Por tanto, es importante que un segundo sistema preserve tal información. Al mismo tiempo que se procesa la información en el sistema ventral, también se lo procesa en el sistema dorsal.

El sistema dorsal abarca un conjunto de áreas cerebrales que sube desde el lóbulo occipital hasta el lóbulo parietal. Este sistema procesa las propiedades espaciales, tales como ubicación y tamaño. Ungerleider & Mishkin (1980) llaman a los sistemas ventral y dorsal, los sistemas “qué” y “dónde”, respectivamente.

(72) La porción delantera del sistema ventral almacena la información en un código visual, a la que no puede acceder la información procedente de otra modalidad sensorial. El objetivo de este procesamiento es descubrir qué objeto almacenado es más parecido al objeto visto. Si se obtiene una buena comparación, se reconoce al objeto; sin embargo, en algunos casos la información puede no corresponder adecuadamente a ningún concreto objeto almacenado.

Es útil distinguir entre reconocimiento e identificación[4]. El reconocimiento ocurre cuando la información se adapta a una memoria perceptual y, por tanto, se sabe que el objeto es familiar; la identificación ocurre cuando la información accede a representaciones almacenadas en una memoria multimodal, “conceptual” y, por ello, se tiene acceso a un amplio rango de conocimiento acerca del objeto (su nombre, habitat preferido, sonido que hace cuando se (lo) sacude, etc.). Cuando se identifica un objeto, se sabe más a su respecto de lo que aparece en la información sensorial inmediato.

El sistema ventral no contiene la clase de representaciones en la memoria que es necesaria para la identificación, sino que más bien se la considera como ayuda a la organización de la información en paquetes conocidos.

El sistema dorsal (encodificador de propiedades espaciales) encodifica información usada principalmente para guiar las acciones, tales como el alcance y movimiento de los propios ojos. Además, este camino permite usar las propiedades espaciales para otros propósitos, como categorizar las ubicaciones de los objetos o de partes o características de los objetos.

 

5. La memoria asociativa (“Associative Memory”). Los outputs de los sistemas de encodificación ventral (propiedades de los objetos) y dorsal (propiedades del espacio) se reúnen en una memoria asociativa (que aparece realizándose en parte en el lóbulo temporal superior-posterior), donde se lo contrasta con la información almacenada. La memoria asociativa no sólo contiene asociaciones entre representaciones perceptuales, sino también información “conceptual” más abstracta (nombres, categorías, partes del habla y otros). A la información, en la memoria asociativa, pueden acceder las entradas procedentes de todos los sistemas sensoriales; una vez se ha accedido a la información adecuada, se ha identificado el objeto.

 

6. Búsqueda de información (“Information Lookup”). Cuando la entrada, inicialmente, no implica un objeto específico, debe recolectarse más información. La información almacenada, parcialmente activada por la información de entrada, guía una encodificación más amplia. Se busca, activamente, nueva información que determinará si el objeto mejor contrastado está, en realidad, presente. Este uso de la información almacenada se llama procesamiento de alto en bajo (“top-down processing”). (74) Existe evidencia acerca de que el córtex prefrontal dorsolateral desempeña un papel crítico en este proceso.

 

7. Cambio de atención (“Attention Shifting”). Finalmente, mediante el procesamiento de alto en bajo no sólo debe accederse a la información almacenada, sino que también deben activarse mecanismos que, efectivamente, cambien la atención hacia una ubicación donde pueda encontrase una parte o característica informativa (p.e., una marca distintiva). El cambio de atención tiene dos componentes: uno que cambia realmente el cuerpo, la cabeza, los ojos y/o la ventana de atención para enfocar una ubicación específica y otro que, simultáneamente, “privilegia” la representación de la propiedad vista, haciendo más fácil codificarla.

Las propiedades del objeto y las espaciales, así registradas en la memoria asociativa, pueden ser suficientes para identificar el objeto. De lo contrario, este ciclo se repite, quizá utilizando otra representación como guía de la búsqueda.

 

El protomodelo en la imaginería mental visual. Una imagen mental visual es un modelo de activación en la memoria visual intermedia que no ha sido causado por la información sensorial inmediata.

Las componentes del protomodelo tienen las mismas propiedades cuando se usan para “inspeccionar” un objeto imaginado en vez de percibido. Una vez que la memoria visual intermedia evoca el modelo de actividad, se lo procesa del mismo modo, sin tener en cuenta si fue evocado por la información proveniente de los ojos (percepción) o de la memoria (imaginería).

Sin embargo, la imaginería tiene al menos tres diferencias principales frente a la percepción: primero, las imágenes mentales se esfuman rápidamente, a diferencia de los perceptos (o sea, las representaciones formadas sobre la base de la información visual mientras se está percibiendo un objeto). En la percepción, el mundo vale como un almacén externo. Segundo, las imágenes mentales se crean a partir de información almacenada; el mundo externo no establece sus contenidos y pueden no tener ninguna semejanza con las representaciones perceptuales inmediatas ("on-line"). Tercero, las imágenes, a diferencia de las percepciones de la gente normal, son notablemente maleables.

(75) [Breve desarrollo de estos tres aspectos]

 

 

 

(76) CONCLUSIONES

 

La imaginería mental visual comparte mecanismos de procesamiento con la percepción visual de alto nivel y, así, una teoría de la percepción visual de alto nivel puede proporcionar los fundamentos para una teoría de la imaginería mental visual.

[Resumen de las 5 clases de habilidades perceptuales visuales]

[Resumen de los 7 subsistemas en que puede descomponerse el sistema visual de alto nivel] (77)

 


 

(79) Cap. 4

Identificación de objetos en ubicaciones distintas

 

 

El tipo de generalización más elemental durante la identificación de objetos es la habilidad  para identificarlos cuando cambian sus posiciones relativas de unos respecto de otros o de si mismos. Los estímulos que caen en partes diferentes de la retina se procesan por partes diferentes de diversas áreas visuales; ¿cómo es que los tratamos como equivalentes?

 

IDENTIFICACIÓN DE OBJETOS EN POSICIONES DISTINTAS EN EL CAMPO VISUAL

 

Diversos mecanismos pueden conducir a que un sistema identifique objetos en distintas posiciones en el campo visual. Pueden organizarse las alternativas a lo largo de un continuum. En un extremo, el sistema crea una representación duplicada de un objeto por cada ubicación en el campo; este proceso su usa cuando un objeto está codificado inicialmente.

Al otro extremo del continuum, sólo se almacena una representación. En este caso, no interesa dónde cae una imagen en la retina; se la convierte en una representación normalizada (“standard”) antes de compararla con las representaciones almacenadas. (80) En este caso, se necesita un sistema aparte para registrar ubicaciones.

También son posibles varios mecanismos intermedios que proponen más de una única representación, pero menos de una por cada ubicación posible.

Existe un intercambio entre la cantidad de almacenaje y la dificultad de procesamiento; moviéndose a lo largo del continuum, conforme se incrementa la cantidad de almacenaje, decrece la dificultad de procesamiento.

Gross & Mishkin (1977) sugieren que el cerebro adopta un mecanismo que cae cerca del segundo polo del continuum; este mecanismo incluye un sistema que descarta la información acerca de la ubicación cuando codifica la forma de un objeto para el reconocimiento, pero también incluye un segundo sistema que preserva la ubicación para la búsqueda, navegación, etc. Por esto, la especialización del lóbulo temporal inferior para procesar las propiedades del objeto y la especialización complementaria del lóbulo parietal para procesar las propiedades espaciales; éste es un buen ejemplo del principio de división del trabajo. Y de hecho, las neuronas en el lóbulo temporal inferior, que aparentemente codifican forma, color y textura, responden del mismo modo cuando los estímulos se sitúan en un amplio rango de posiciones en el campo visual.

Es útil retomar la idea de Gross & Mishkin en relación a la correspondencia de entrada/salida. La información es un objeto que puede aparecer en una variedad de ubicaciones y el output es una representación de la identidad del objeto y de su ubicación. Una tarea es difícil si es difícil representar la información sobre el output deseado y un modo de resolver las representaciones difíciles es dividirlas en una cantidad relativamente simple de representaciones. Si ello es así, entonces la división del trabajo entre el lóbulo temporal inferior y el lóbulo parietal tiene sentido calculatoriamente.

 

¿La división del trabajo es calculatoriamente eficiente?

 

Mis colegas y yo desarrollamos dos tipos de modelos de “red neuronal” de pre-alimentación (“feedforward”) para explorar las propiedades calculatorias de Gross & Mishkin (1977). Un tipo incluía sólo un único sistema, que codificaba tanto la identidad como la ubicación; por el contrario, el otro incorporaba un sistema bifurcado, con un subsistema que codificaba la identidad y otro que codificaba la ubicación. Usamos el error de output (o sea, el cuadrado de la diferencia entre el output correcto y el observado) después de determinada cantidad de pruebas de aprendizaje, como una medida de la (81) dificultad relativa para establecer una representación entrada/salida. Además, analizando los patrones de valores relativos (weights) de las conexiones hacia y desde las unidades profundas (hidden), podíamos determinar cómo actuaban verdaderamente las representaciones.

Nuestra hipótesis era que, caeteris paribus, el sistema bifurcado establecería las representaciones de modo más adecuado.

(82) Contra nuestras expectativas, la red no-dividida estableció la representación con mayor facilidad. Afortunadamente, Kyle Cave miró los outputs con más cuidado y observó que aunque la red no-dividida establecía mejor la representación para la tarea de identificación, la red dividida actuaba tan bien como la no dividida en la tarea de ubicación.

¿Por qué? Ese resultado tiene sentido si las dos clasificaciones tienen dificultades diferentes. La representación necesaria en la tarea de ubicación es directa; en realidad, es “linealmente separable”: un rasgo diferente en la información puede identificarse directamente con un output determinado. Una red sin unidades profundas establecería una conexión directa entre cada ubicación y el requerido output de clasificación de la ubicación. Por el contrario, no había rasgo simple que pudiera usarse para clasificar las formas cuando aparecían en diferentes posiciones. Y de hecho, la tarea de identificación era más difícil para ambas redes.

A primera vista, los resultados eran decepcionantes; esperábamos que la estrategia de la división de tareas fuera mejor que la estrategia del sistema simple. Tras reflexionar, sin embargo, comprobamos que la idea de la división del trabajo no implicaba nada acerca de cómo se deberían distribuir los recursos para cada partición. La red dividida podía haberse visto perturbada por la excesiva escasez de recursos para establecer la representación de la identidad.

Para investigar esta posibilidad, cambiamos el número relativo de unidades profundas asignadas a representar la identidad y la ubicación en una red dividida. De hecho, la actuación de la red dividida varió notablemente según la organización interna. Una vez que suficientes unidades profundas se dedicaron al problema de la identidad y que al problema de la ubicación no se lo empobrecía hasta morir, la red dividida resultaba realmente superior a la no dividida.

 

Cómo se logró la representación: campos receptivos y proyectivos   En estas redes, las unidades profundas se usaron para representar la información sobre los outputs de identidad y ubicación. Estas representaciones se efectuaban ajustando los valores relativos (adjusting the weights) en las conexiones entrantes y salientes de las unidades profundas. Analizando los patrones de los valores relativos sobre las conexiones hacia y desde las unidades profundas, podría establecerse cómo actuaban efectivamente las representaciones. O sea, examinando qué conexiones del estrato de la información contribuían con mayor peso a la activación de determinada unidad profunda, se podría determinar qué aspectos de la información eran particularmente importantes para esa unidad. Esto se (83) denominó un análisis de los campos receptivos, por analogía con la relación entre una neurona y el área del espacio al cual un estímulo puede conducirla. El campo receptivo de una unidad profunda consiste en aquellas unidades de la información que tienen valores relativos fuertes  en sus conexiones con la unidad profunda (y, por tanto, la afectarán fuertemente al ser estimuladas por una entrada. De modo semejante, examinando qué conexiones desde una unidad profunda contribuyeron con mayor peso al estado de activación de las unidades de output, se podría determinar qué combinaciones de las propiedades de la información (en cuanto registradas por la unidad profunda) serían importantes para respuestas específicas. Esto se denominó un análisis de los campos proyectivos. El campo proyectivo de una unidad profunda consiste en aquellas unidades de output que tienen valores relativos fuertes en sus conexiones desde esa unidad profunda.

De algún modo, este uso de los modelos de redes es como configurar un análisis multi-regresional, en el cual se trata de descubrir qué variables independientes dan cuenta de la variación de una variable dependiente. Pero en este caso no se especifica, por adelantado, las variables independientes; el objetivo es descubrirlas. El análisis de los campos receptivo y proyectivo proporciona información acerca de qué aspectos de la información fueron usados por una red para cumplir una determinada representación entrada/salida y proporciona indicios acerca de cómo el cerebro puede cumplir una representación semejante.

 

(84) Conclusiones desde las simulaciones  Identificar un objeto y especificar una ubicación son lógicamente independientes y, por tanto, no parece posible que las representaciones de entrada/salida eficientes para ambas tareas compartan conexiones en una red; en realidad, la oportunidad para compartir conexiones parecería susceptible de causar interferencias. Por tanto, se esperó que los dos tipos de relevamientos se cumplieran más fácilmente mediante dos mecanismos que mediante uno solo. Codificar formas es, aparentemente, más difícil que codificar ubicaciones, aun cuando las formas varíen únicamente en dos dimensiones.

Es importante enfatizar que uso modelos de red de un modo algo inusual: no estoy interesado en aprender per se, ni considero a estas redes simuladas como modelos realistas de redes neuronales reales (con cada unidad correspondiendo a una neurona individual). Más bien, los modelos se seleccionan a un nivel más abstracto; son un modo de afirmar la facilidad relativa de configurar determinadas clases de representaciones entrada/salida. Podría considerarse a este enfoque como un modo de establecer la relativa “complejidad calculatoria” de los cálculos en sistemas con organizaciones funcionales diferentes; a un error mayor después de determinada cantidad de pruebas de aprendizaje, el cálculo efectuado por esta estructura es más complejo.

(85) Habiendo dicho esto, puede preguntarse si se ha aprendido algo del juego planteado  a la red. Ciertamente, el cerebro no realiza las representaciones realizadas por los modelos; no identifica un pequeño conjunto de patrones bidimensionales en un pequeño número de ubicaciones. Sin embargo, puede reconstruirse el resultado para hacerlo más plausible. La red no “sabe” cómo el usuario humano interpreta los outputs; desde su punto de vista (por así decir), los outputs corresponden no a la identidad sino a la presencia de los rasgos claves. Por tanto, la red dividida, adecuadamente dividida, operaba mejor porque separaba la representación de los rasgos de la información habituales para codificar la forma de los que eran habituales para codificar la ubicación. El punto importante es que en la medida en que dos representaciones de entrada/salida son lógicamente diferentes (o sea, una puede especificarse con completa independencia de la otra), la interferencia ocurre si las mismas unidades profundas se usas para ambas representaciones.

 

La memoria visual intermedia (“The Visual Buffer”)

 

Pensemos de nuevo en este problema. Realmente tiene dos versiones. Hasta aquí hemos desarrollado el problema de cómo se identifican los objetos cuando sus imágenes de la información caen en regiones diferentes de la retina y se debe procesar completamente la información en cada región. Otra versión del problema que surge quizá con mayor frecuencia se refiere a cómo se identifica un objeto cuando su imagen cae inicialmente en distintas regiones de la retina, pero pueden moverse los ojos para fijarlos sobre el objeto. Si se mueven los ojos, de modo que el objeto se fije sin importar en qué parte del campo se encuentre, el problema se hace trivial. Una vez que se han movido los ojos, la misma información sensorial puede codificarse cuando el objeto está en numerosas ubicaciones diferentes.

La solución a esta versión del problema de la representación sugiere una solución al problema más interesante que se da cuando no pueden moverse los ojos (p.e.: cuando sólo se vislumbra un objeto desde un vehículo en movimiento o en un experimento de campo visual dividido). Los modelos de cálculo incluyen una matriz que preserva el esquema espacial del entorno percibido. Esta matriz permite a las redes desarrollar algunos grandes campos receptivos “de alambrado duro” (hard-wired); pero estos por sí solos no codificarían los ddiferentes etímulos (otras conexiones “para propósitos especiales” también están presentes). Sin embargo, si el cerebro contuviera tal estructura espacial podría haber solucionado la versión más difícil del problema, por analogía con cómo soluciona la versión más fácil. Tal como pueden moverse los ojos para fijarlos en partes diferentes de un entorno real, podría cambiarse internamente el foco de atención, lo que sería como el movimiento de un ojo interno, permitiendo focalizar patrones en regiones diferentes de la matriz interna. Como resumí en el capítulo anterior, llamo a la matriz interna memoria visual intermedia y al lugar interno de atención ventana de atención.

(86) Tal como se lo concibe actualmente, una representación en la memoria visual intermedia es semejante la “esbozo 2.5 D” de Marr. Siguiendo a Marr, supongo que la distancia y orientación de los puntos en el campo visual están explícitamente representados en esta estructura. También supongo que la información acerca de los bordes calculada por los procesos de bajo nivel está explícitamente representada en la memoria visual intermedia. Además, supongo que la memoria visual intermedia organiza activamente las regiones de valores semejantes (colores, intensidades) en unidades perceptuales.

El “principio de menor compromiso” de Marr es particularmente importante para procesar lo que ocurre relativamente temprano; si se descarta demasiada información, un cálculo posterior puede llegar a ser imposible. El esquema espacial de la memoria visual intermedia es útil porque permite a las representaciones en la memoria intermedia contener una enorme cantidad de información implícita acerca de las propiedades espaciales; tal información puede utilizarse para muchos propósitos derivados. Además, una estructura espacial puede representar muchas propiedades de la forma con independencia de la ubicación, lo que facilita el procesamiento separado de los dos tipos de información. El concepto de memoria visual intermedia es consistente con las propiedades claves de la neuroanatomía del cerebro.

 

Localización anatómica. He caracterizado los procesos de alto nivel como aquellos que utilizan la información almacenada acerca de los objetos y acontecimientos, en contraste con los procesos visuales de bajo nivel que se conducen sólo por la información de los estímulos. ((En nota 5, pág. 412: Para ser clasificado como de “bajo nivel”, el conocimiento no puede ajustar un procesamiento de área. Para entender esta distinción, considérese el hecho de que con independencia de lo bien que se sepa que las dos líneas, en la ilusión Muller-Lyer, tienen la misma longitud, no se las puede ver como iguales. Este hecho muestra que la ilusión se produce por un proceso visual de bajo nivel.)) Por tanto, la memoria visual intermedia corresponde a un conjunto de áreas retinotópicamente representadas, en las que el conocimiento acerca de los objetos y acontecimientos influye en el procesamiento. Estas áreas constituyen una estructura funcionalmente caracterizada; no necesitar estar anatómicamente contiguas. Hay muchas áreas visuales candidatas que pueden ser componentes de esta estructura funcional, incluidas las áreas V1, V2, V3, V3A y V4.

(87) Indudablemente, el conocimiento de los objetos y acontecimientos influye en el procesamiento, en el área V4.

 

 

La ventana de atención

 

Para que sea viable la solución propuesta al “problema de la equivalencia de estímulos a través de la traslación retinal” , también debe existir un mecanismo de atención móvil que pueda desplazar el foco hacia diferentes regiones en la memoria visual intermedia. De hecho, hay considerable evidencia de que tal mecanismo existe.

La atención, según yo usaré el término, es el aspecto selectivo del procesamiento. Aparentemente, hay más información disponible en la memoria visual intermedia de la que puede pasar aguas abajo y, por tanto, la capacidad de transmisión se debe distribuir selectivamente; alguna información puede pasar, pero otra debe excluirse. La ventana de atención es un mecanismo que selecciona un patrón en la memoria visual intermedia y la pasa a las restantes áreas del sistema. Desde el punto de vista de la mayoría del sistema de visión de alto nivel, la única porción importante de la memoria visual intermedia es esta subsumida por la ventana de atención. Por tanto, las propiedades de la ventana de atención sitúa las exigencias acerca de lo que todos los subsistemas de procesamiento subsiguientes pueden cumplir.

(88) La ventana de atención debe jugar también un papel organizacional esencial  en el sistema. Como observamos antes, diversos resultados sugieren que las propiedades del objeto se procesan separadamente de las propiedades espaciales. Si ello es así, debe existir un mecanismo que separe las dos clases de información y las mantenga coordinadas; necesitamos información acerca de la forma para programar la posición de nuestras manos cuando intentamos agarrar un objeto específico y, por tanto, la información acerca de la forma y ubicación debe coordinarse. La ventana de atención satisface estas funciones porque toma muestras de una región específica de la memoria visual intermedia (y por tanto sus outputs se unen oportunamente (are yoked in time)) y sus contenidos se envían tanto al sistema dorsal como al ventral.

Además, considérense las dificultades que enfrenta un sistema sin ventana de atención.

 

Operación de la ventana de atención.

 

La ventana de atención selecciona una región en la memoria visual intermedia para el procesamiento detallado. Más precisamente, el subsistema selecciona qué conjunto de outputs neuronales serán clausurados y a cuales se les (90) permitirá enviar outputs más allá. Y de hecho, muchos investigadores han mostrado que los humanos no pueden atender a más de una región del espacio (o sea, un conjunto de ubicaciones contiguas) al mismo tiempo.

Aunque este resultado indica que la atención selecciona una región para el procesamiento privilegiado, esto no implica ningún mecanismo particular.

De cualquier modo, todas estas teorías son consistentes con el concepto de una ventana de atención; las teorías pueden conceptualizarse como difiriendo en el tamaño supuesto y el método de modificar la ventana. La teoría del proyector (spotlight) postula una ventana relativamente pequeña que cambia continuamente; la teoría del gradiente (the gradient) puede considerarse como definiendo una distribución de probabilidades, describiendo la probabilidad de que una ventana relativamente grande cubra una región en cada punto a la vez; (91) y la teoría de la selección del cuadrante (quadrant-selection) puede construirse como postulando una ventana relativamente grande que se modifica entre un relativamente pequeño conjunto de ubicaciones discretas. Otras diferencias entre las teorías parecen ser cuestión de énfasis.

 

Localización anatómica. La ventana de atención opera en el interior de la memoria visual intermedia y, por tanto, se localiza en las mismas partes del cerebro que la memoria visual intermedia. Es posible que el pulvinar (pulvinar) juegue un papel crítico delineando la ubicación y el alcance de la ventana de atención, al inhibir determinadas regiones en la memoria visual intermedia o outputs a partir de esas regiones.

 

(92) Cambios de atención basados en el estímulo

 

Para codificar la apariencia de un objeto en detalle, la ventana de atención debe posicionarse rodeando su representación en la memoria visual intermedia.  ¿Pero cómo se desplaza la ventana de atención (o los ojos, para el caso) para enfocarse sobre la ubicación de un objeto? Un método debe implicar lo que llamaré el subsistema de cambio de atención basado en el estímulo. Este subsistema  mueve, por reflejo (reflexively), la atención hacia la ubicación de un estímulo sobresaliente; los objetos sobresalientes se diferencian de modo relativamente claro de su entorno; con frecuencia, pero no siempre, son relativamente grandes, brillantemente coloreados o móviles. Cuando se ve a tal objeto fuera del ángulo del propio ojo (o sea, se lo registra por el mecanismo de bajo nivel, preatencional), la atención debe desplazarse para verlo más claramente. Esta especie de mecanismo de cambio de atención descendente (bottom-up) debe existir, de otro modo la atención siempre se dirigiría al azar o según lo que se esperase ver; obviamente, se adapta para fijarse rápidamente en objetos que pueden ser de particular importancia, especialmente si no se esperase verlos.

(93) En resumen, el subsistema de cambio de atención basado en el estímulo conduce a que se responda a un estímulo moviendo el cuerpo, la cabeza, los ojos, y/o la ventana de atención de modo que se atienda a un objeto potencialmente importante. Una vez que se atiende al objeto, se lo proceso del mismo modo, sin considerar cuando su representación cae en la memoria visual intermedia.

 

Ubicación anatómica. El coliculus superior, que es componente crítico de la vía tectopulvinar, juega un papel clave en este subsistema.

 

(94) Resumen: identificar objetos en diversas posiciones en el campo visual

 

Aparentemente, el cerebro soluciona el problema de la identificación de los objetos vistos en ubicaciones diferentes del siguiente modo: primero, un objeto se representa como un patrón espacial de actividad en la memoria visual intermedia. La representación es la misma en diferentes ubicaciones de la memoria intermedia. Segundo, el subsistema de cambio de atención basado en estímulos sitúa, de modo reflejo, la ventana de atención en la memoria visual intermedia, de modo que rodea una sobresaliente configuración de actividad (que surge cuando un objeto tiene un color, intensidad, tamaño o movimiento claramente distinto respecto de su entorno). Esta operación de desplazamiento puede involucrar el movimiento del cuerpo, la cabeza, los ojos y/o la ventana de atención; la ventana de atención puede desplazarse disimuladamente, permitiendo atender a objetos vistos fuera del ángulo del propio ojo. Tercero, una vez que la ventana de atención selecciona una configuración de actividad en la memoria visual intermedia, envía información a dos sistemas distintos, uno que codifica las propiedades del objeto (forma, color, textura) y otro que codifica las propiedades espaciales (ubicación, tamaño y orientación). Por ahora es suficiente con decir que estas tres propiedades del sistema visual se encuentran en el corazón de nuestra habilidad para identificar los objetos cuando aparecen en ubicaciones diferentes.

 

IDENTIFICACIÓN DE OBJETOS A DISTANCIAS DIFERENTES

 

Los objetos se identifican con facilidad cuando se los ve desde distancias diferentes. Esto es notable porque el ángulo visual abarcado por el objeto (y el tamaño de la imagen de la entrada) cambia dramáticamente cuando se lo ve a diferentes distancias. Este problema puede resolverse en parte si puede alterarse el enfoque de la ventana de atención en la memoria visual intermedia.

 

Ajuste creciente (Incremental Adjustment)

 

Esta concepción de la ventana de atención implica que no sólo su ubicación se puede transformar de modo creciente, sino que también su tamaño puede ajustarse de modo creciente.

(95) En resumen, se tiene amplia evidencia de que el enfoque de la ventana de atención puede alterarse de modo creciente, permitiendo focalizar regiones de diferentes tamaños de la memoria visual intermedia. Una vez que la ventana de atención está adecuadamente graduada, su material es enviado a los sistemas ventral y dorsal.

 

Propiedades adicionales de la memoria visual intermedia

 

La afirmación de que puede ajustarse el enfoque de la ventana de atención hace recordar la teoría del reflector, pero esto probablemente es erróneo. La propia memoria visual intermedia parece representar la información a escalas múltiples y la ventana de atención se ajusta seleccionando un nivel de escala en la memoria intermedia. La memoria visual intermedia puede considerarse como una pirámide, con un único número en la parte superior que especifica el nivel de intensidad promedio representado a lo largo de toda la estructura y un número para cada ubicación individual en la memoria intermedia en la parte inferior, cada uno de los cuales especifica una intensidad local; las alturas intermedias corresponden a las cantidades intermedias de porcentaje sobre las regiones locales en la memoria intermedia. Marr (1982) estableció una representación multiescalar en su teoría acerca de cómo se detectaban los bordes; si conjuntos de zero crossings (o sea, ubicaciones (96) de cambios máximos de intensidad) aparecen a niveles múltiples de resolución, ello era posible que indicase un borde y no una textura o algo semejante.

La propiedad multiescalar de la memoria visual intermedia es importante, en parte, porque lleva a la ventana de atención a tener una correspondencia enfoque-resolución: cuanto más grande sea la región monitoreada, más pobre será la resolución en la región. Si ello es así, entonces, si un objeto está lejos y por tanto la ventana de atención se ajusta a un pequeño tamaño, puede tenerse una agudeza incrementada, que se compensaría parcialmente ante cualquier disminución en la calidad de la imagen.

(97) Numerosos resultado en la literatura son consistentes con esta afirmación.

Antes de terminar eta sección, debo notar que LaBerge (1983) informa acerca de datos que, a primera vista, parecen inconsistentes con esta concepción.

(98) Finalmente, hay dos situaciones en las que ajustar la ventana de atención para incluir un objeto en la memoria visual intermedia no soluciona el problema de reconocer objetos a distancias diferentes. Primero, si el objeto está tan distante que las partes y características claves están oscuras, no se lo puede reconocer bajo ninguna circunstancia. Y segundo, si el objeto está tan cerca que sólo se ve claramente una pequeña porción, puede no ser posible codificar propiedades identificadoras. En realidad, si está demasiado cerca, es característico que tengan que hacerse múltiples movimiento de los ojos para codificar el objeto. Surgen dos problemas cuando son necesarios múltiples movimientos de los ojos: ¿cómo hay que mover los ojos de modo que codifiquen efectivamente al objeto? ¿Y cómo se integra una secuencia de codificaciones de modo que pueda identificarse un único objeto?

Diferiré estos problemas por el momento, pero volveré sobre ellos después de haber aportado inferencias adicionales acerca del sistema, cuando considere otras habilidades.

 

Resumen: identificación de objetos a distancias diferentes.

 

Nuestra habilidad para identificar objetos vistos a distancias diferentes proviene en parte de que puede ajustarse el enfoque de la ventana de atención; puede graduarse la ventana de atención de modo que se incluya en su interior una representación en la memoria visual intermedia y una información semejante se envíe al sistema ventral.

 

IMAGINERÍA Y PERCEPCIÓN

 

En este capítulo me vi conducido a formular tres afirmaciones principales acerca de la arquitectura de la visión de alto nivel: planteé una memoria visual intermedia multigraduada y espacialmente organizada, una ventana de atención ajustable que selecciona una región de la memoria visual intermedia (y que permite que material de esa región se procese descendentemente en detalle) y un subsistema de cambio de atención basado en estímulos. Cada uno de esos componentes del sistema tiene impacto en la naturaleza de la imaginería.

 

(99) La memoria visual intermedia en la imaginería

 

La memoria visual intermedia se corresponde con las neuronas de un conjunto de áreas retinotópicamente proyectadas. Hallazgos del PET sugieren que las imágenes mentales visuales se corresponden con configuraciones de actividad en al menos algunas áreas de la corteza retinotópicamente proyectadas. Este es un hallazgo importante ya que propiedades de la memoria visual intermedia que son evidentes en la percepción visual afectarían también a la imaginería visual de modo semejante. Esto parece ser cierto.

 

Resolución. La memoria visual intermedia tiene una resolución fija, presumiblemente en parte porque los ojos tienen sólo un poder de resolución limitado y la memoria intermedia evolucionó para procesar la información a partir de los ojos. Los límites de resolución de la memoria visual intermedia puede reflejar el fenómeno del “agregado espacial”. Las neuronas visuales promedian la información en función de un área determinada. Este proceso de promediar equivale a introducir un “grano” en la memoria intermedia y todas las representaciones estarían afectadas por este grano.

 

Ángulo visual. Si la memoria visual intermedia se utiliza en la percepción y en la imaginería entonces los objetos imaginados deberían tener una extensión máxima: la memoria visual intermedia evolucionó para procesar la información desde los ojos y los ojos abarcan sólo un ángulo visual limitado; por tanto, la memoria visual intermedia tiene un extensión espacial circunscrita, que restringiría las imágenes mentales visual así como las percepciones visuales.

 

(100)

(101) Mantenimiento. Si la memoria visual intermedia se utiliza en la imaginería y en la percepción, entonces las propiedades de esta estructura en la percepción explicaría por qué los objetos son tan difíciles de mantener temporalmente en las imágenes mentales. Dado que la memoria visual intermedia está proyectada retinotópicamente, la representación en ella cambia cada vez que se mueven los ojos. Por tanto, las representaciones se “desvanecerían” rápidamente durante la percepción. Los humanos pueden hacer un movimiento de ojos en 250 ms, lo que implica que una configuración de actividad en la memoria visual intermedia no persistiría más de un cuarto de segundo. Este efecto debe diferenciarse de la supresión sacádica (o sea, cuando la información finaliza mientras el ojo está en tránsito). Sin embargo, la supresión sacádica podría también contribuir a la rápida decadencia de las imágenes mentales: los sujetos con frecuencia mueven sus ojos durante la generación de imágenes y estos movimientos del ojos pueden suprimir las imágenes mentales en la memoria visual transitoria.

 

Ventana de atención

 

La ventana de atención opera aparentemente del mismo modo en la imaginería y en la percepción. Por ejemplo, Podgorny y Shepard (1983) proporcionan evidencia acerca de que los procesos de atender para percibir e imaginar patrones está sometido a un canje de enfoque – resolución.

 

Barrido de imágenes. Las propiedades de la ventana de atención también nos ayuda a comprender un aspecto adicional de la imaginería, el barrido de imágenes. El barrido de imágenes ocurre cuando se desplaza la atención sobre un objeto o una escena imaginados, lo que suele ser un prerrequisito para “inspeccionarlo”. Recuérdese que una de las aparentes paradojas que Pylyshyn planteó contra las teorías representacionales de la imaginería era que no hay ojos para barrer las imágenes mentales (ni hay ninguna luz para que lo viera, si tales ojos estuvieran presentes).Nuestra meditación acerca de la habilidad para reconocer los objetos en diferentes ubicaciones proporciona una salida simple de este acertijo: si las imágenes mentales visuales son patrones de actividad en la memoria visual intermedia, como los resultados del PET sugieren, entonces pueden barrerse mediante el cambio de la (102) ventana de atención. Si es así, entonces algunos de las hallazgos del barrido son fáciles de comprender.

Sin embargo, esto no es todo: Kosslyn (1978, 1980) encontró que la gente puede barrer partes de los objetos que no son inmediatamente “visibles” en una imagen mental; y que el barrido “fuera de pantalla” es tan rápido como el barrido de la misma distancia entre los partes “visibles”.

 

Cambio de atención basado en estímulos

 

 El subsistema del cambio de atención basado en estímulos desplaza el cuerpo, la cabeza, los ojos y/o la ventana de atención de modo que se focaliza un estímulo que se diferencia relativamente de su entorno. Este subsistema está conducido por la información de bajo nivel desde los ojos y, por tanto, no se utiliza en la imaginería. Sin embargo, puede tener relevancia para una exposición de la imaginería. Al oír la afirmación de que la percepción y la imaginería están íntimamente vinculados, muchos preguntaron, “¿entonces por qué hablamos de ellas separadamente?”. Una respuesta es que a veces no lo hacemos. Pero esta no es la respuesta completa; habitualmente se pueden diferenciar las imágenes mentales de las percepciones. No vivimos en un mundo de sueños. Varias claves pueden ayudar a distinguir la imaginería de la percepción.

Primero, el subsistema de cambio de atención basado en estímulos sólo opera durante la percepción; por tanto, si nuestra atención está atrapada repentinamente por un objeto o acontecimiento, no estamos participando de la imaginación. No obstante, esto puede no ser cierto durante los sueños: en la imaginería durante la vigilia, siempre se sabe la identidad de los objetos que se están imaginando; durante el sueño, aparentemente esto no siempre es así. Es más, las “reglas” del sueño hacen que los objetos aparezcan en contextos inusuales, por tanto es concebible que la atención mental esté “atrapada” durante el sueño de un modo que recuerda el modo en que está capturada durante la percepción. No tengo evidencia en un sentido u otro de que el mismo subsistema se utilice cuando la atención cambia por las propiedades del estímulo durante la percepción y durante (103) el sueño, pero tiendo a dudarlo: las conexiones del el ojo con el coliculus superior, que aparecen fundamentales para el subsistema del cambio de atención, es improbable que se evoquen durante la imaginería.

Segundo, el cambio de atención basado en el estímulo puede ayudar a distinguir entre la imaginería y la percepción, en parte porque es “automático” durante la percepción, mientras que el cambio de atención no es automático en la imaginería.

Un tercer factor que nos lleva a diferenciar las imágenes mentales de las percepciones es la duración del estímulo; los objetos imaginados se desdibujan muy rápidamente, mientras que la percepción existe mientras se mira a un objeto.

Un cuarto modo por el que se distinguen ambos se basa en el hecho de que las imágenes están limitadas por la información codificada en la memoria. Si no se ha estudiado un objeto cuidadosamente, puede faltar la información necesaria para evocar una imagen mental vívida. Por el contrario, usualmente puede acumularse más información acerca de un objeto durante la percepción mirándolo más cuidadosamente.

(104) Una quinta clave consiste en que en las imágenes tenemos control sobre los objetos, pero el mundo raramente es tan cooperativo. Podemos rotar, expandir, distender y transformar de cualquier otro modo, según nuestra voluntad, los objetos imaginados. Ahora bien, si puede realizarse tales operaciones ello evidencia que uno está imaginado más bien que percibiendo.

 

Intercambio enfoque – resolución

 

Dado que se pueden de hecho “ver” detalles en los objetos imaginados, el intercambio de enfoque – resolución implica que (a) se almacena no sólo la envoltura general de la forma sino también representaciones de porciones menores de objetos y (b) información adicional puede añadirse a un objeto imaginado cuando sea necesario.

 

CONCLUSIONES

 

He caracterizado tres componentes del procesamiento visual de alto nivel. La memoria visual intermedia es una estructura multigraduada organizada espacialmente que corresponde a un conjunto de áreas proyectadas retinotópicamente en el lóbulo occipital; estas áreas se usan para separar la figura del fondo durante la percepción. La memoria visual intermedia contiene mucha más información de la que puede procesar al mismo tiempo y por consiguiente una ventana de atención selecciona una porción para su procesamiento exhaustivo. La ventana de atención puede depender fundamentalmente del núcleo pulvinar del tálamo. El enfoque y ubicación de la ventana de atención en la memoria visual intermedia puede ajustarse; el enfoque se altera seleccionando porciones diferentes de una representación multigraduada en la memoria visual intermedia. La ventana de atención se ajusta en parte mediante un subsistema de cambio de atención basado en estímulos. Este subsistema parece depender fundamentalmente del colículus superior. El output desde la ventana de atención se envía a un sistema de reconocimiento en el lóbulo temporal, que permite relevar las formas cuando sus imágenes caen según diferentes tamaños o en diferentes ubicaciones de la memoria visual intermedia. La memoria visual intermedia y la ventana de atención juegan papeles semejantes en la imaginería y en la percepción y las propiedades de cada una afectan a ambas clases de procesos. El subsistema de cambio de atención basado en estímulos, aparentemente, no se usa en la imaginería, lo que puede constituir un modo de distinguir entre imaginería y percepción.

En el capítulo 5 expondré cómo la imaginería es una parte de la propia percepción y no simplemente un parásito de mecanismos que existen para otros propósitos.

 

 

(105) Cap. 5

Identificación de objetos cuando se ven partes diferentes

 

Se puede identificar una silla vista de frente, de costado, de atrás o en varios ángulos intermedios. Esta habilidad es destacable porque la imagen proyectada por la silla sobre la retina varía ampliamente en cada caso. La solución más directa a este problema consiste simplemente en almacenar una representación diferente para cada punto de vista, y probablemente es lo que hacemos al menos algunas veces. Pero no puede ser la solución completa: podemos identificar objetos en posiciones nuevas, cuando no hemos tenido previamente la oportunidad de almacenar la representación correspondiente. La imaginería parece jugar un papel importante en este aspecto de nuestras habilidades visuales.

 

IDENTIFICACIÓN DE OBJETOS VISTOS DESDE DISTINTAS PERSPECTIVAS

 

¿Cómo se proyectan las imágenes de muchas informaciones para el mismo output? Este es un problema difícil: según cómo está orientado el objeto, se evocarán diferentes patrones de activación en la memoria visual intermedia.

 

La necesidad de pasos de procesamiento intermedios

 

La neuroanatomía del sistema visual sugiere que existen numerosos subsistemas de procesamiento que intervienen entre la codificación inicial en la memoria visual intermedia y la identificación del objeto. Sería muy difícil proyectar el verdadero rango de entradas posibles en la memoria visual intermedia sobre las representaciones correctas de la identidad del objeto; en realidad, no es claro si una proyección inmediata es incluso posible.

Una mejor aproximación es confiar en la estrategia de la división del trabajo, rompiendo un muy complejo problema de proyección en un conjunto de problemas más simples. En vez de (106) proyectar un patrón de información correspondiente a un objeto completo directamente sobre una única representación, resulta más simple proyectar el patrón sobre un conjunto de rasgos que permanecen estables cuando se ve al objeto desde un determinado punto de vista y, entonces, proyectar esos rasgos sobre las representaciones del objeto almacenado.

Puede convenir hacer una pausa para reflexionar sobre un razonamiento acerca de la división del trabajo que también da lugar a otra interpretación de los hallazgos que provienen de los modelos de redes descritos en el capítulo 4. Este argumento depende de un análisis de la evolución del sistema visual. La evolución del ojo es un buen ejemplo. La mejor conjetura establece que el ojo comenzó como un trozo de piel sensible a la luz en algún animal acuático. Una variación genética (o sea, una mutación o reorganización de los alelos) concluyó en un hoyuelo en ese trozo, que proporcionó una mayor sensibilidad direccional a ese trozo. Esta sensibilidad direccional incrementada ayudó al animal a encontrar alimento, evitar los depredadores, etc., y así el animal tuvo relativamente una numerosa prole sobreviviente y esta variación genética se propagó. Otra variación genética produjo que se estrechara el hoyo, lo que le permitió focalizar una imagen bajo el trozo sensible a la luz, como ocurre en las cámaras de pasador sin lente. Sin embargo la luz puede ser demasiado débil. Además, puede entrar basura del tamaño que tenga el agujero abierto y oscurecer la luz. Además, cuando una variación genética produjo una tenue pieza de piel trasparente sobre el hoyuelo, esos animales tuvieron una ventaja. Y, por supuesto, cuanto más transparente la piel, mejor, y así los animales con la piel sobre el hoyuelo más clara tenía mayor supervivencia. Cuando otra variación genética produjo un engrosamiento de la piel sobre el centro del hoyuelo, creando una lente, esto permitía focalizar la imagen y al mismo tiempo admitían más luz, lo que era aún más útil y, por tanto, se propagó. Y así hasta evolucionar en un ojo sofisticado. En cada etapa de la secuencia evolutiva, el sistema fue útil en su correspondiente estado; no hubo etapas intermedias que no fueran intrínsecamente útiles. Esto es muy distintos a lo que ocurre cuando se construye la mayoría de las máquinas; son inútiles hasta que están terminadas.

Por analogía, no es difícil imaginar que, en un estado temprano de evolución, un cerebro primitivo realizaría una simple proyección qué/dónde del tipo de la realizada por los modelos de redes de computadoras. Puede haber sido útil para algunos organismos tempranos que la codificación primitiva de la identificación y ubicación de un objeto se cumpliera mediante sistemas diferentes; nuestros modelos de red muestran que es más fácil codificar ambas clases de información al mismo tiempo en un sistema adecuadamente dividido que en un único sistema.

Una vez esta estructura organizacional quedó establecida, fue la base para nuevos desarrollos; los organismos posteriores no tuvieron que volver a empezar, sino más bien construyeron sobre lo que estaba disponible en un sistema nervioso previo. Si ello es así, entonces la división del trabajo en los sistemas ventral y dorsal de los primates puede haber evolucionado en parte como una consecuencia de las exigencias de organismos más primitivos.

(107) Este razonamiento apoya mi hipótesis de trabajo acerca de que el sistema ventral está compuesto por numerosos subsistemas. Sin embargo, la motivación principal de esta hipótesis es que sería muy difícil, si no imposible, modelar nuestras habilidades visuales con proyecciones directas de los patrones de información para las representaciones de la identidad. Como primera aproximación, mis colegas y yo hemos encontrado que muchas de estas habilidades puede comenzar a entenderse si el sistema ventral se divide en dos subsistemas.

 

SUBSISTEMA DE PREPROCESAMIENTO

 

 El procesamiento de abajo hacia arriba en la memoria visual intermedia organiza la imagen de entrada en regiones de color, textura o intensidad comunes y también detecta los bordes. Este proceso con frecuencia no separa los objetos; los bordes, por ejemplo, pueden estar representados por conjuntos de fragmentos desconectados. Así, para ser útiles, estos elementos se organizan en unidades perceptuales de orden superior. Según esta teoría, conjuntos de elementos que indican algunos tipos de unidades perceptuales de orden superior, se extraen de la imagen de entrada y pasan hacia abajo para encajar con las representaciones almacenadas. Los cálculos necesarios para extraer tales conjuntos de elementos son cualitativamente distintos de los considerados antes, lo que me conduce a hipotetizar que un subsistema diferente  es el que cumple este proceso. En esta sección desarrollo la teoría de un subsistema de procesamiento que acepta una imagen como entrada (desde la ventana de atención) y extrae tipos específicos de propiedades de la imagen de entrada.

No todas las unidades perceptuales serán útiles para el reconocimiento de objetos, en especial cuando se las ve desde diferentes puntos de vista. Por ejemplo, las sombras no pueden ayudar a reconocer muchos objetos. No obstante, otras unidades perceptuales pueden (108) proporcionar claves acerca de cómo se vea al objeto. Deben existir algunos criterios que permitan tratar a un conjunto de estímulos como equivalentes. Una primera pregunta, por tanto, es qué clase de rasgos es posible que estén presentes cuando se ve a un objeto desde múltiples puntos de vista.

Muchos investigadores han considerado el problema de cómo podemos identificar objetos que proyectan imágenes de entrada diferentes.

Lowe (1985, 1987) diseñó la construcción de un sistema de visión de computadora que pudiera identificar objetos en contextos muy perturbados. Su sistema comienza por extraer los bordes de una imagen utilizando técnicas estándares de detección de bordes (algunas de las cuales derivan de los algoritmos de Marr). Lowe observó que determinados aspectos de la imagen de entrada de un objeto permanecía relativamente constantes bajo cambios de escala, rotación y traslación. Los llamó propiedades no accidentales. Biederman (1987) proporciona un buen resumen de las propiedades identificadas por Lowe.

Cuando está presente una propiedad no accidental, es improbable que haya surgido por azar.

(109) En algunas circunstancias, las propiedades no accidentales no son suficientes para implicar un objeto determinado. En tales circunstancias, se puede contrastar la imagen misma; la imagen no es un conjunto de propiedades no accidentales, sino más bien una representación de la distribución de diversas propiedades (tales como intensidad y color) sobre una superficie. Por tanto, infiero que el subsistema de preprocesamiento proporciona como resultado tanto la extracción de propiedades no accidentales como la propia imagen. El modo más simple de lograrlo parecería (110) ser asignar un “canal” de entrada diferente para la propiedades no accidentales. En este caso, las propiedades no accidentales serían un subconjunto del vector que representa la entrada; este vector especificaría también el color y la textura así como la propia forma.

 

Evidencia del uso de propiedades no accidentales

 

Los experimentos de Biederman y Blickle (1985). La columna de la izquierda muestra la versión intacta de los objetos y la comparación interesante es entre las columnas del medio y de la derecha. Aunque ha sido borrada la misma cantidad de contorno en ambos casos, las ubicaciones de los contornos borrados son diferentes. En la columna del medio, todas las propiedades no accidentales se dejaron intactas; en realidad, los fragmentos se alinean a lo largo de funciones suavemente adecuadas. Por el contrario, en la columna de la derecha, las propiedades no accidentales han sido borradas. Lo eliminado no sólo quebraba la linearidad sino que oscurecía las intersecciones y simetrías. Además, inducía a completar los fragmentos de modo inadecuado, formando líneas “virtuales” erróneas.

 

(111)(112) Evidencia clínica. Algunas disfunciones visuales observadas a partir de daños en el cerebro son consistentes con la afirmación de que el subsistema de preprocesamiento puede dañarse selectivamente, limitando la cantidad de propiedades no accidentales que pueden seleccionarse.

Humphreys and Riddoch (1987) explican los problemas de su paciente como reflejando una “agnosia integradora”, que caracterizan como la dificultad en integrar partes diferentes.

(113) El subsistema de preprocesamiento es apto para incorporar subsistema diferentes (los cuales se corresponden con “canales”) que procesan de manera distinta color y forma. La percepción del color puede dañarse selectivamente a consecuencias de una lesión cerebral. Los resultados de PET han mostrado que áreas diferentes codifican la forma y el color. Es más, incluso los subsistema que codifican los rasgos de la forma pueden descomponerse en subsistemas diferentes.

El paciente que tenía dificultad para codificar curvas era incapaz de identificar los rostros de la gente (el era un prosopagnóstico). “Pérdida del procesamiento configurador”. Si “procesamiento configurador” implica extraer las propiedades no accidentales que se extienden sobre ángulos visuales relativamente grandes, tales como contornos fragmentados, este déficit puede reflejar un subsistema de preprocesamiento dañado.

Muchos invetigadores han informado que pacientes con daños cerebrales pueden tener déficits selectivos para nombrar las imágenes de cosas vivas, comparado con cosas no vivas. Esta clase de carencia selectiva se considera que refleja un daño en una parte de la “memoria semántica”. Aparentemente es más difícil distinguir perceptualmente entre diversas cosas vivas de lo que es distinguir entre diversas cosas no vivas. Esta dificultad puede surgir porque las cosas vivas tienen una preponderancia de líneas (114) curvas, lo que requiere una mayor esfuerzo de extracción. Alternativamente, las cosas vivas tienden a ser más semejantes entre sí que las cosas no vivas.

 

Revisión del reconocimiento de objetos en diferentes ubicaciones

 

Un aspecto que no consideré antes se refiere a la estructura de la memoria visual intermedia. Las áreas retinotópicamente organizadas que componen la memoria visual intermedia no son ni homogéneas ni isotrópicas. Todas ellas tienen la mayor representación de la fovea y distorsionan la geometría de otros modos (tal como el alargamiento del eje horizontal). Así, una imagen de entrada que se proyecta desde distintas partes del campo no producirá una representación idéntica en la memoria visual intermedia. Pero si persiste alguna distorsión en la representación de la forma, ello platearía un problema: anteriormente, yo supuse que la ventana de atención podría trasladarse a cualquier ubicación dada en la memoria visual intermedia y enviar esencialmente la misma representación hacia abajo. Pero la misma representación no estará presente cuando la imagen caiga en partes distintas de la memoria visual intermedia; esta no es ni homogénea ni isotrópica. Sin embargo, si las propiedades no accidentales se extraen por el subsistema de preprocesamiento, entonces los mismos conjuntos de propiedades no accidentales pueden extraerse de la imagen, pese a las distorsiones locales causadas por las inohomogeneidades de la estructura de la memoria visual intermedia.

 

Propiedades de “señal”

 

Aunque las propiedades no accidentales son poderosas, no son la única clase de información que usamos para reconocer los objetos. Muchos objetos naturales, tales como árboles, animales y frutas no puede describirse fácilmente usando propiedades no accidentales. Esta clase de observaciones condujo a J. J. Gibson (1950, 1966, 1979) a atender a las propiedades de las superficies y los gradientes de textura, más que a las propiedades de los bordes. Llamaré a las características que sirven para diferenciar objetos, pero que no son propiedades no accidentales, propiedades de señal (signal properties).

Los subsistemas de preprocesamiento extraen las propiedades de señal utilizando dos tipos de principios. Primero, el subsistema de preprocesamiento extrae conjuntos de unidades perceptuales elementales, que se organizan mediante un proceso (115) de abajo – arriba (bottom-up) en la misma memoria visual intermedia. El subsistema de preprocesamiento puede extraer conjuntos de otras clases de unidades perceptuales (que no son las propiedades no accidentales) que están configuradas en la memoria visual intermedia. Estas unidades incluyen regiones de color y textura homogénea, así como conjuntos de elementos contiguos (las que obedecen las leyes de la Gestalt de semejanza, proximidad, buena continuación, etc.).

Segundo, el subsistema de preprocesamiento puede ajustarse mediante un aprendizaje de alto en bajo (top-down) que le permite extraer unidades específicas de la imagen de entrada; las configuraciones de tales unidades delinean una característica diferencial del objeto. (La mancha rara en el almohadón de una silla puede servir para diferenciarla.) Las redes de preprocesamiento aparentemente pueden aprender a registrar y extraer tales propiedades “ad hoc”. Una vez que se ha observado una característica diferencial importante, ésta puede ser un rasgo clave de la representación almacenada del objeto. Supongo que, así como las formas se especifican por conjuntos de propiedades no accidentales, las características diferenciales se especifican característicamente mediante conjuntos de más primitivas propiedades de señal. Ajustando adecuadamente la ventana de atención, las propiedades de señal pueden registrarse en un amplio rango de posiciones y distancias.

Algunas propiedades de señal pueden evidenciarse cuando se ve un objeto desde múltiples perspectivas; alternativamente, pueden varias de tales propiedades ser de modo tal que al menos algunas sean visibles desde diferentes puntos de vista. En ambos casos, tales propiedades nos ayudarían a reconocer objetos vistos desde diferentes perspectivas.

 

(116) Ubicación anatómica

 

Es razonable suponer que el subsistema de preprocesamiento se implementa en el área occípito – temporal, con que sólo se suponga que la memoria visual intermedia está localizada en el lóbulo occipital y que las propiedades del objeto se procesan en el lóbulo temporal inferior. El subsistema de preprocesamiento es el puente entre la ventana de atención y la memoria visual. Y de hecho, la lesión en el área occípito – temporal produce la clase de carencias antes descritas.

 

(117) SUBSISTEMA DE ACTIVACIÓN DE PATRONES

 

Parte de la solución al problema de cómo se identifican los objetos desde diferentes puntos de vista es la existencia de propiedades no accidentales, muchas de las cuales serán evidentes de las proyecciones diferentes de un objeto. Otra parte de la solución radica en los modos en que estas propiedades no accidentales y de señal se confrontan con las representaciones visuales almacenadas de los objetos. Gran parte del poder de un conjunto de propiedades no accidentales surge de lo que Lowe (1987) llamó la exigencia de la consistencia del punto de vista (viewpoint consistency constraint). La interpretación de las propiedades no accidentales y sus posiciones relativas debe ser consistente con ver una forma desde un único punto de vista.

La salida del subsistema de preprocesamiento debe confrontarse con otro subsistema, al que denomino subsistema de activación de patrones. Este subsistema almacena representaciones visuales de patrones, cada una de las cuales incluye un conjunto de propiedades no accidentales y de señal. En cierto sentido, estas propiedades son una “dirección” (“address”) de representación: este subsistema empareja las propiedades de entrada con aquellas asociadas con todas las representaciones almacenadas (en paralelo). La representación almacenada más consistente con el conjunto de las propiedades de la entrada es la que se activa con más fuerza. Desarrollaré que si las propiedades de la entrada no están suficientemente diferenciadas entre objetos semejantes, se genera una imagen mental y se la compara con los patrones almacenados (usando un procedimiento de alto en bajo). La salida de un subsistema de activación de patrones es un código – patrón que especifica la pareja que mejor encaja así como una medida de lo adecuadamente que la entrada encaja en esa forma.

Existe evidencia de que las memorias visuales se almacenan en el lóbulo temporal inferior. Esta región no se utiliza para almacenar otros tipos de representaciones, tales como las utilizadas para entender el habla, guiar el movimiento, etc. La existencia de esa diferente estructura de memoria visual es consistente con el principio de división del trabajo. Este principio implica que el complejo emparejamiento de entrada/salida se realiza mejor mediante una serie de procesos: cuando (118) entradas muy diferentes se confrontan con la misma salida, la confrontación puede realizarse más eficientemente si un proceso inicial reduce la diversidad de las entradas a confrontar con la misma salida. En este caso, la interposición de una memoria visual diferente entre la salida del subsistema de preprocesamiento y la memoria asociativa simplifica el problema de establecer la correspondencia necesaria para identificar un objeto. Si se usara una única representación de memoria para todas las modalidades de entrada, la confrontación entrada/salida sería muy compleja.

La estructura de la memoria visual probablemente almacene la información en un formato diferente (o sea, tipo de código). Considérese el siguiente razonamiento: como se observó antes, para distinguir entre formas semejantes puede necesitarse comparar las propiedades de una imagen almacenada con la información de entrada. No puede saberse por anticipado qué propiedades resultarán útiles. En realidad, en algunos casos, puede ser necesario calcular las propiedades a partir de la información almacenada. Por tanto, resulta importante almacenar información que permita recuperar un amplio rango de propiedades; estas propiedades no necesitan explicitarse en la representación, pero deben permitir que se las reconstruya a partir de ella. Idealmente, esta información permitirá reconstruir la imagen misma: no sólo existe una cantidad infinita de proposiciones que pueden afirmarse acerca de un objeto (Goodman, 1983), sino que también deben advertirse las relaciones espaciales entre esas propiedades. Almacenar una representación que especifique información suficiente para reconstruir una imagen, por tanto, respetaría el “principio de menor compromiso” de Marr (1982).

Las memorias visuales a largo plazo probablemente se almacenan como “códigos de población”, con cada neurona participando en varias representaciones. (119) Fujita y otros (1992) presentan evidencia de que la porción anterior del lóbulo temporal inferior en los monos (que almacena las memorias visuales) está organizado en conjuntos repetidos de columnas. Estiman que hay entre 1.000 y 2.000 columnas en el mono que pueden registrar rasgos distintos. Presumiblemente, la representación a largo plazo de una imagen sería un vector de rasgos a través de tales columnas. A falta de un término mejor, me referiré a tales representaciones como representaciones de imagen comprimida, para destacar tanto la falta de topografía como la inclusión de información suficiente para reconstruir una imagen.

 

Confrontar la entrada con los patrones almacenados

 

Hasta aquí se ha visto la primera fase de contraste en el subsistema de activación de patrones: cuando las entradas del subsistema de preprocesamiento se contrastan de abajo hacia arriba con las propiedades de las representaciones almacenadas; En muchos casos, se activará en cierta medida más de una representación. En tales circunstancias, se ofrecen redes de “el ganador toma todo” (“winner-take-all”) como mecanismos calculatorios para seleccionar la representación que mejor encaja. En una red de el ganador toma todo, cada representación inhibe a cada otra, y la cantidad de inhibición que una representación impone es directamente proporcional a cuán fuertemente está activada. Así, la representación activada más fuertemente suprimirá a las otras. No se necesita que la representación se implemente en una célula “abuela”. Si las memorias visuales está almacenadas como códigos de poblaciones, una arquitectura de el ganador toma todo implicaría la inhibición entre las coaliciones de neuronas que componen las diferentes representaciones.

Un problema lo constituye, sin embargo, el hecho de que cuando sean visibles pocas propiedades diferenciales, éstas establezcan débiles exigencias acerca de lo que deba ser el objeto. (120) En muchos casos, los patrones de las propiedades no accidentales son insuficientes para identificar los miembros de una clase, incluso cuando se han recuperado todos las propiedades no accidentales. Por definición, las propiedades no accidentales constituyen un empobrecimiento respecto a la imagen; son las propiedades de la imagen que es posible que permanezcan constantes bajo diferentes condiciones de percepción.

En algunas situaciones en las que las propiedades no accidentales son insuficientes, puede haber suficientes propiedades de señal para reconocer el objeto. A veces se puede reconocer un objeto incluso cuando sólo están visibles una pocas propiedades, si esas propiedades son suficientemente diferenciales. Pero las propiedades de señal no siempre pueden verse desde diferentes perspectivas. Si no pueden verse suficientes propiedades diferenciales –no accidentales o señales- entonces el objeto no será reconocible en un primer momento.

 

Emparejamiento basado en la imagen. Consideraciones similares llevaron a Lowe a aplicar la segunda fase del proceso. Encontró que, cuando las propiedades no accidentales no implicaba con fuerza un único objeto, es útil activar un “modelo” almacenado de la forma mejor contrastada. Activar un modelo almacenado (que se corresponde con la representación de la imagen comprimida que yo postulo) genera una imagen en la configuración de entrada (la memoria visual intermedia, en mis términos). Esta imagen generada se compara con la propia imagen de entrada y se reconoce el objeto si la imagen generada desde la memoria se ajusta a la imagen de entrada. Las imágenes que aquí se generan no son otras que las imágenes mentales.; si Lowe está en lo correcto, la habilidad para formar imágenes mentales juega un papel clave en el reconocimiento de objetos.

En el sistema de Lowe, el tamaño y la orientación de la imagen generada se ajustan hasta que se logra la mejor correlación con la imagen de entrada. Yo supongo que la representación en el subsistema de activación de patrones no especifica el tamaño. Los resultados (de investigaciones) sugieren que la representación de la memoria visual no especifica el tamaño. Como desarrollaré en los siguientes capítulos, afirmaré que una representación del tamaño está asociada con una representación de la forma en l memoria asociativa. Durante la correlación basada en la imagen, la representación (121) del tamaño en la memoria asociativa se utiliza para alterar la función de correspondencia desde el subsistema de activación de patrones con la memoria visual intermedia.

Si la imagen inicialmente generada no satisface la entrada en el grado deseado, la representación se inhibiría y se activaría la representación que ahora encuadre mejor la entrada y el proceso se repetiría.

Aunque me impresiona el sistema de Lowe, esto no implica que lo considere un modelo preciso del procesamiento humano. En especial, su sistema genera una imagen completa que se usa como un modelo; yo no propongo que la imaginería humana opere de este modo. Más bien, un modo mejor de concebir este proceso de la retroalimentación de la imaginería implica el concepto de cumplimiento de vector (vector completion). Algunos modelos de redes neuronales contienen conexiones recurrentes, de modo que los estados de las unidades más alejadas en el proceso fluyen hacia atrás para modificar los estados de la entrada o de las iniciales unidades ocultas. Si la entrada tiene ruido, esa retroalimentación puede efectivamente dar cuenta de los elementos perdidos. Este proceso se llama cumplimiento de vector. La imaginería puede jugar aquí un papel semejante: La imagen generada es información que completará las porciones perdidas de la entrada. Por tanto, también a diferencia del sistema de Lowe, en los humanos, la retroalimentación de la imaginería no “espera” a que la confrontación de abajo hacia arriba se complete. Más bien, tan pronto como una representación almacenada se activa con la fuerza suficiente como para inhibir a las otras, comienza a enviar la retroalimentación de la imagen. Esta conceptualización proviene del concepto de cálculo cooperativo, en el que cada área visual proporciona retroalimentación a otras anteriores para asistirlas en sus cálculos.

El proceso de reconocimiento depende no sólo de una especificación acerca de la representación mejor compaginada, sino también de la información acerca del grado al cual una representación almacenada se empareja con la entrada. La información acerca  del grado de calidad del encaje es útil cuando la información alcanza la memoria asociativa, en especial para regular la generalización. O sea, parte del problema de la generalización es mantenerlo en límites aceptables; no se pretende identificar una zorro con un perro. Usar la información acerca de la calidad del encaje para regular el grado de generalización tiene un beneficio adicional: por ser dependiente del contexto, el sistema (122) puede ajustar un criterio de aceptabilidad, de modo que diferentes niveles de emparejamiento sean aceptables.

Planteo la hipótesis de que la salida del subsistema de activación de patrones indica no sólo cuál de las representaciones almacenadas encaja mejor con la entrada, sino también la calidad con que singularmente lo hace. La “fuerza” de la salida reflejaría el grado con que la representación mejor emparejada, de modo específico, “captura la variación” en la entrada; en la medida en que un única representación sea consistente con el patrón de entrada, esta representación producirá una salida fuerte.

 

Evidencia de la retroalimentación de la imaginería. Cave & Kosslyn (1989) realizaron un experimento simple para descubrir si una representación almacenada de un patrón produce retroalimentación que satisface la imagen de entrada y por ello facilita la codificación, durante el reconocimiento humano de objetos. Basado en las idea de Lowe se espera que una imagen se active y se utilice para aumentar la entrada cuando las propiedades no accidentales son insuficientes.

(123)(124) Los resultados de este experimento tiene sentido si la ventana de atención se ajusta para rodear la imagen de entrada en la memoria visual intermedia para codificar el estímulo de abajo arriba; al mismo tiempo, se activa la información almacenada y la retroalimentación de la imaginería se retroproyecta en la memoria visual intermedia para aumentar la entrada. Por lo tanto, cuando mayor es la disparidad en los tamaños representados, más tiempo tomaba ajustar la función de contraste desde el subsistema de activación de patrones, de modo que la retroalimentación de la imaginería pudiera aumentar la imagen de entrada.

El mismo mecanismo explicará también hallazgos comparables que ocurren cuando varían las orientaciones de estímulos sucesivos.

(125)(126) Introspectivamente, puede parecer extraña la afirmación de que la imaginería se usa en el reconocimiento de objetos. No somos conscientes de generar imágenes cuando reconocemos objetos. En la mayoría de las ocasiones, este proceso puede ser tan rápido como para que no seamos conscientes de que la información almacenada ha aumentado la entrada. Es más, como observé anteriormente, es habitual que este proceso no termine, produciendo una imagen mental diferente. En la mayoría de los casos, logra satisfacer la imagen de entrada y, simplemente, veremos el objeto.

¿Pero, qué ocurre cuando la imagen activada no encaja con la entrada? En tales circunstancias, el proceso de retroalimentación de la imaginería produciría uno de estos dos resultados. Por una parte, si la entrada perceptual está empobrecida (como ocurre cuando se ve algo fuera del ángulo de los ojos) la retroalimentación de la imaginería puede alterar lo que uno ve. Por otra parte, si la entrada perceptual es fuerte (el objeto está en la fovea y no está oscurecido), entonces abrumará la retroalimentación de la imaginería; la entrada perceptual fuerte dejará de lado el estado de la memoria visual intermedia impuesto por la representación de la imagen activada y, por tanto, no se será consciente de la imagen.

 

(127) Representaciones centradas en el objeto versus centradas en el observador

 

Considérese de nuevo el problema de cómo se identifican los objetos vistos desde diferentes perspectivas. Su solución depende en parte del modo como los objetos se representan en la memoria visual (en el subsistema de activación de patrones). Hay dos métodos frecuentemente discutidos para representar la información en la memoria de modo que un sistema pueda reconocer los objetos cuando se los ve desde diferentes puntos de vista. Por una parte, como fue planteado por Marr (1982), los objetos podrían identificarse emparejando la entrada con las representaciones tridimensionales, centradas en el objeto, de las formas almacenadas. En una representación centrada en el objeto, las partes se relacionan con el propio objeto y son independiente de cualquier punto de vista. Una representación tridimensional incluirá todas las partes de un objeto y así las partes codificadas desde cualquier punto de vista dado se emparejara con cualquiera de las almacenadas en la representación. Por tanto, este tipo de representación permitirá al sistema generalizar desde múltiples puntos de vista.

Por otra parte, se podría almacenar una representación distinta de cada vista o forma. Ullman y Barsi (1990) probaron que se necesita un máximo de seis imágenes para permitir la reconstrucción de cómo un objeto aparece desde cualquier punto de vista y Edelman y Bulthoff (1991) mostraron que los seres humanos pueden interpolar entre distintas representaciones almacenadas cuando reconocen patrones sin sentido, vistos desde diferentes puntos de vista. Según qué representaciones almacenadas estén presentes, una determinada forma nueva será más o menos semejante a otra almacenada, lo que hará la generalización más o menos fácil.

La visión de Marr ha influido mucho en algunos ángulos de la comunidad de la ciencia cognitiva y diversas teorías de la visión de alto nivel plantean que la entrada se contrasta con las almacenadas representaciones centradas en el objeto. Pero la evidencia acerca de las representaciones centradas en el objeto es débil y hay buena evidencia acerca de que las representaciones visuales almacenadas preservan algunas propiedades  centradas en el observador. A mi parecer, ningún extremo es posible que sea correcto; es conveniente, no obstante, estudiar las alternativas extremas.

 

Evidencia acerca de las representaciones centradas en el observador. (128) Resultados de experiencias que son difíciles de explicar si no estuvieran almacenadas representaciones centradas en el espectador.

En resumen, la existencia de neuronas que generalizan acerca de las variaciones de forma, ángulo visual, ubicación u orientación no implica que la representación subyacente esté centrada en el objeto; podría estar centrada en el observador, pero la entrada se codificaría ajustando la ventana de atención y se contrastaría con la representación almacenada usando la exigencia de consistencia del punto de vista.

Aunque las representaciones centradas en el objeto requieren que deba almacenarse relativamente poca información, es necesario considerablemente más procesamiento par codificarlas que para codificar las representaciones centradas en el observador. Los patrones de activación en (129) los mapas retinotópicos están centrados en el observador; describen una imagen de entrada tal como cae en la retina cuando se ve un objeto desde un determinado punto de vista. Por tanto, las representaciones de entrada están centradas en el observador. Se enfrenta un canje: las ventajas de almacenar menos representaciones centradas en el objeto debe evaluarse frente a las complicaciones de crearlas.

Las complicaciones por usar representaciones centradas en el observador han probado no ser graves. La capacidad de nuestras memorias visuales es realmente asombrosa. Standing distingue entre imágenes “normales” y “vívidas”. Sus hallazgos muestran que aparentemente no existe un límite superior en la memoria humana respecto de las imágenes, incluso las imágenes normales.

Los resultados sugieren la verdaderamente sorprendente conclusión de que los sujetos pueden buscar 51.180 imágenes por segundo en la memoria de largo plazo.

(130)(131) A primera vista, estas clases de hallazgos parecen evidenciar que las imágenes se almacenan usando representaciones centradas en el observador. En tal caso, la entrada consistiría en representaciones centradas en el espectador las que se contrastarían directamente frente a representaciones almacenadas centradas en el espectador.

Además, si el cerebro almacena representaciones centradas en el espectador, podemos esperar una buena memoria para la orientación de izquierda a derecha. Pero la gente es notablemente pobre para esta tarea. Si la representación estuviera completamente centrada en el espectador, la orientación de almacenaría intrínsecamente con la forma.

Así, enfrentamos un acertijo: ¿cómo se puede reconciliar el hecho de que la gente es sensible a las variaciones en la orientación planar con el hecho de que son insensibles a las variaciones en la orientación de izquierda a derecha? ¿Y cómo se explica el efecto práctico acerca del tiempo usado para identificar objetos en diferentes orientaciones, en especial los efectos equivalentes de mostrar a los sujetos imágenes inicialmente desorientadas o derechas?

Quizá las propiedades de los objetos almacenados están organizadas para verse desde un determinado punto de vista, pero el proceso de comparación se basa en la exigencia de consistencia del punto de vista. La exigencia (132) de consistencia del punto de vista puede estar implementada de modo que una imagen almacenada sea confrontada con la misma facilidad con sigo y con su reflejo especular. El modo como la entrada está organizada en unidades perceptuales depende en parte de cómo un estímulo está orientado en el plano. Tales unidades perceptuales definen los componentes de las propiedades no accidentales y de las señales.

Dependiendo de la naturaleza de las unidades perceptuales que son la entrada del subsistema de preprocesamiento, se obtendrán diferentes (aunque superpuestos) conjuntos de propiedades no accidentales y de señales. Así, alterando la orientación de un objeto puede cambiar la naturaleza de la entrada que se confronta con las representaciones almacenadas. Según cómo está organizada una figura, la entrada puede o no emparejar la información almacenada en es subsistema de activación de patrones.

Pueden organizarse nuevas unidades que diseñarán conjuntos de propiedades no accidentales que puedan reconocerse en diferentes orientaciones. Este proceso puede requerir dispersar (breaking up) un conjunto inicial de propiedades no accidentales, para focalizar sólo una porción de un borde o una parte de una región simétrica. Por ejemplo, en vez de codificar la forma completa (133) de un perro, que se organizará perceptualmente de modo diferente desde distintas orientaciones, se pueden codificar las partes separadamente, que tenderán a organizarse del mismo modo cuando se vean desde diferentes orientaciones.

Esta teoría también nos permite comprender la caída en el tiempo de respuesta cuando el estímulo está invertido. Hay dos aspectos de este resultado que necesitan explicación. Primero, ¿por qué los tiempos son más rápidos de lo esperado si se usa la rotación? El eje habitual gravitacional se preserva cuando se invierte un objeto y, por tanto, muchas de sus partes estarán perceptualmente organizadas del mismo modo. Segundo, ¿por qué los tiempos son todavía mayores que cuando se ve un objeto en la posición derecha habitual? Parece plausible que algunas porciones de los objetos no estén organizadas del mismo modo cuando se los ve en el contexto de una figura invertida.

(134) En resumen, propongo que la operación de la exigencia de la consistencia del punto de vista durante el emparejamiento debe entenderse en el contexto de los efectos de la orientación en la organización perceptual.

 

(135) Evidencia acerca de las representaciones centradas en el objeto. Es posible que, bajo ciertas circunstancias se pueda organizar la entrada en representaciones centradas en el objeto. (El experimento de Jolicoeur & Kosslyn, 1983). El truco consistía en que se variaban sistemáticamente la semejanza entre el distractor y el objetivo de diversas maneras. Algunos distractores fueron, en realidad, simples versiones rotadas de la figura en estudio y, así, tienen las mismas descripciones centradas en el objeto. Otros distractores tienen las ramas secundarias y terciarias en los mismo lugares en el espacio como la figura en estudio, pero el eje mayor estaba orientado de modo diferente; por tanto, estas figuras tenían semejantes descripciones centradas en el observador, pero diferentes descripciones centradas en el objeto.

Por ello, elaborando la escala multidimensional de datos de rango semejante, pudimos determinar qué clase de información almacenada tenía que compararse con la entrada. Cuando se les (136) decía que estudiaran la estructura tridimensional de los objetos, encontrábamos incrementada la semejanza percibida si los distractores tenían descripciones centradas en el objeto semejantes a los objetivos. Tal semejanza era particularmente evidente si se pedía a los sujetos que evaluaran la semejanza de las estructuras de los objetos per se. Pero aun en este caso extremo, la semejanza centrada en el observador aun influía en las categorías, como lo evidenciaban tanto las soluciones de la escala reconstruida como el tiempo empleado en los diversos juicios. Por el contrario, cuando se pedía a los sujetos que recordaran lo que parecían los objetos vistos desde un determinado punto de vista, no había evidencia de que también codificaran información centrada en el objeto.

Podemos concluir que los sujetos habitualmente almacenan información centrada en el observador, pero en determinadas circunstancias pueden almacenar también información centrada en el objeto. Tal información centrada en el objeto puede no estar almacenada como representaciones en el sistema ventral; más bien, tal información puede corresponder a “rutinas” que pueden seguirse para ubicar partes o características diferenciales acerca de si un objeto está en alguna orientación.

Esta teoría implica que habitualmente no se puede reconocer un objeto la primera vez que se lo ve desde un nuevo punto de vista si no puede codificarse suficientes propiedades no accidentales y señales o si la imagen no encaja con la generada desde una representación almacenada. En resumen, sugiero que los objetos habitualmente pueden tener más de una única representación en el subsistema de activación de patrones.

 

Ubicación anatómica

 

El subsistema de activación de patrones está localizado aparentemente en el lóbulo temporal inferior de los monos. Dean & Weiskrantz (1974) por ejemplo, mostraron que (137) la carencia padecida por animales con lesiones en IT se debió a una pérdida de memoria per se.

(138)(139)(140) Sin embargo, es importante observar que se ha informado de datos que supuestamente desafían la idea de que las memorias estén almacenadas en IT. Pero estos (investigadores) no se refieren al tema de si IT es una estructura de la memoria visual; más bien, se refieren a la distinción de Mishkin, Malamut & Bachevalier (1984) entre un sistema de “hábito” y un sistema “cognitivo”. El sistema cognitivo implica representaciones internas a las que puede accederse en múltiples contextos, mientras que un sistema de hábito implica representaciones a las que se accede sólo mediante estímulos determinados y que, a su vez, produce respuestas determinadas.

(141)(142)(143) Finalmente, aun cuando IT es un candidato viable para almacenar las memorias visuales, no es el único. Debe observarse que la porción media ventral del lóbulo frontal también puede jugar un papel en el almacenaje de las memorias visuales.

(144)

(145) Resumen: identificación de objetos desde diferentes puntos de vista

 

Tres mecanismos nos permiten reconocer los objetos desde diferentes puntos de vista. Primero, las propiedades no accidentales y las propiedades de señal se extraen de una imagen de entrada; las propiedades no accidentales son particularmente útiles porque las mismas tienden a ser evidentes desde múltiples puntos de vista. Segundo, estas propiedades y sus posiciones relativas se confrontar con las memorias visuales almacenadas vía la exigencia de consistencia del punto de vista. Una representación de objeto se activa en la medida en que la entrada es consistente con ver a este objeto desde un único punto de vista. La representación más fuertemente activada inhibe a las otras. Tercero, cuando la entrada está confrontada, la representación del objeto mejor confrontado envía retroalimentación a la memoria visual intermedia. La función de confrontación de esta representación con la memoria visual intermedia, se ajusta hasta que la retroalimentación pueda aumentar el patrón de entrada lo mejor posible. Este proceso de ajuste altera el tamaño, ubicación y orientación de la región cubierta por la retroalimentación de la imaginería. Si falla en la confrontación, otra imagen mental se genera, basada en un competidos cercano. (Si éste falla en la correspondencia con la imagen de entrada, se toman pasos más drásticos, como se verá en el capítulo siguiente.) Una vez que se reconoce al objeto, un código de patrón se establece en la memoria asociativa, donde activa las representaciones apropiadas y se identifica al objeto; en el próximo capítulo se tratará esta fase de la identificación con más detalle.

 

IMAGINERÍA Y PERCEPCIÓN

 

La hipótesis que he desarrollado en este capítulo sugiere que la imaginería juega un papel esencial en la percepción normal. La idea central es que cuando la entrada al subsistema de activación de patrones activa una representación suficientemente fuerte, se activa una representación del candidato con mayor posibilidad y se envía la retroalimentación de la imaginería a la memoria visual intermedia. La función de proyección de esta retroalimentación se ajusta para aumentar al máximo la imagen de entrada. Según esta teoría, las imágenes mentales se producen cuando una representación de una imagen comprimida se activa con suficiente fuerza para que la retroalimentación que proporciona sea suficientemente fuerte como para imponer una configuración de la actividad en la memoria visual intermedia, más que el simple aumento de una imagen de entrada que ya está presente.

 

(146) Activación de la imagen

 

Sostengo la hipótesis de que las imágenes mentales surgen cuando se han activado las representaciones en el subsistema de activación de patrones e imponen una configuración de la actividad en la memoria visual intermedia. Esta configuración de la actividad en la memoria visual intermedia es la imagen propiamente dicha. La información en el subsistema de activación de patrones se corresponde con los “archivos literales” (literal files) de Kosslyn (1980), que son parte de la representación profunda usada para generar imágenes. Y el patrón en la memoria visual intermedia es la representación de la superficie.

Esta teoría se apoya sobre la idea de que las conexiones eferentes permiten que las áreas de alto nivel impongan un estado en las áreas de bajo nivel. Un problema con esta idea es que el patrón de las conexiones eferentes no refleja simplemente el correspondiente patrón de las conexiones hechas por el camino aferente (entrada). Más bien, las conexiones eferente son más difusas que las aferentes.

Este problema puede sugerir realmente un mecanismo acerca de cómo se crean las imágenes: quizá la retroproyección actúa usando una codificación grosera, más que una proyección 1:1. O sea, más que intentar reconstruir el preciso modelo de activación punto por punto, almacenando el valor de cada punto individual, las áreas visuales de alto nivel pueden almacenar las correspondientes fuerzas de entrada de grandes regiones. Cuando estas representaciones se activan, se retroproyectarían para superponerse sobre las zonas de la memoria visual intermedia. Y el grado de superposición determinaría el valor de cada punto específico, produciendo una representación de la mayor resolución espacial. Tales esquemas de codificación grosera son muy eficientes; por ejemplo, las salidas correspondientes a los tres tipos de conos en la retina codifican un gran número de colores.

(147) Además, este esquema da esperanzas de resolver otro problema, ¿cómo se reconstruye una representación espacial a partir de una no espacial?

Las imágenes también podrían construirse utilizando algo semejante al sofisticado esquema calculatorio descrito por Stucky & Pollack (1992), quienes proponen, para la activación de las imágenes, un mecanismo de memoria reconstructiva de base fractal (atractor). Uno de los aspectos interesantes de su sistema es que la función de emparejamiento puede alterar fácilmente la ubicación, orientación y tamaño de la imagen. En realidad, una imagen puede transformarse continuamente en otra por extrapolación lineal entre sus representaciones subyacentes.

Otro problema potencial surge si las conexiones entre áreas son meramente recíprocas. En tal caso, para generar una imagen, el sistema necesitaría encadenarse a través de todas las áreas que conducen a las áreas que almacenan la información visual.

Además, la imaginería puede depender de la información que se envió vía el tálamus. Virtualmente, cada área visual está conectada vía el tálamus (que es una estructura subcortical que ha sido comparada con frecuencia con una estación de relevo).

(148) Según esta propuesta, la imaginería es un subproducto natural del “cálculo cooperativo” en los sistemas en cascada. O sea, cada área no espera a terminar de procesar una entrada para producir una salida. Las áreas de nivel superior, en su oportunidad, retroproyectan información para facilitar el procesamiento de nivel inferior: las áreas “cooperan”.

A mi modo de ver, la imaginería surge siguiendo una gran cantidad de preparativos, tales que las áreas de nivel inferior están forzadas a adoptar un nuevo estado como consecuencia de la información que fluye hasta ellas desde las áreas de nivel superior, incluso sin la entrada ascendente apropiada.

Además, si las representaciones visuales están organizadas en cuanto vistas desde un punto de vista particular, entonces la gente visualizaría los objetos que se ven desde un punto de vista familiar más fácilmente que los objetos que se ven desde otros puntos de vista.

 

(149) Inspección de la imagen

 

La retroalimentación de la imaginería aumenta las imágenes de entrada, facilitando por tanto la codificación. Este proceso opera característicamente “on line”, operando cuando las actividades de entrada almacenan las representaciones. Sin embargo, en algunas situaciones el proceso de imaginería puede iniciarse antes que la entrada: en algunos casos puede permitir reconocer muy rápidamente un patrón complejo.

Además, he afirmado que es característico que la gente codifica, durante la percepción, coordenadas centradas en el espectador; si ello es así, esperaríamos que la gente usara habitualmente coordenadas centradas en el espectador, para la imaginería. Es claro que las imágenes representan a los objetos como vistos desde un único punto de vista. Si esto no fuera cierto, no sería necesaria la rotación mental. Franklin & Tversky (1990) proporcionaron apoyo adicional a esta afirmación. Los sujetos en estos experimentos tenían que indicar qué objeto estaba en una ubicación específica o la ubicación de un determinado objeto. Cuando se pedía a los sujetos explícitamente que utilizaran la imaginería, F&T encontraron que no todas las direcciones desde el espectador eran (150) igualmente accesibles. Más bien, los sujetos podrían evaluar los objetos imaginados que estuvieran arriba y debajo de ellos tan fácilmente como los que estuvieran delante de ellos, pero encontraban mucho más difícil evaluar los objetos imaginados detrás o a sus costados. Resultados semejantes se obtuvieron incluso cuando no se requería explícitamente la imaginería, excepto que disminuyese lo destacado de los objetos frente al sujeto. En otros experimentos, F&T pidieron a los sujetos que se imaginaran a sí mismos reclinados, lo que alteró los resultados (aunque no siempre del modo esperado); para el presente objetivo, el hallazgo más importante fue que no todas las direcciones respecto del cuerpo son igualmente accesibles en una imagen: las escenas imaginadas no se organizaban usando coordenadas centradas en el objeto.

Una implicación importante de estos hallazgos es que los sujetos no se imaginan a sí mismos en el centro de una escena tridimensional. Si lo hicieran, deberían ser capaces de “girar” para “ver” los objetos del costado más fácilmente que los objetos que estaban detrás. Si las imágenes son configuraciones de actividad en la memoria visual intermedia, como he afirmado, la gente podría visualizar sólo una región limitada (lo más, en torno a 40º del ángulo visual con buena resolución) y debería generar nuevas imágenes cuando cambiaran la perspectiva. En ese caso, si el cambio es suficientemente grande, los sujetos realizarían presumiblemente un barrido ciego (blink scan): borran la imagen inicial y forman una nueva imagen del material visto. Y según cómo se almacene el material en la memoria de largo plazo, será más o menos fácil visualizarlo.

 

Mantenimiento de la imagen

 

Y he sugerido que la característica de “degradación rápida” de la memoria visual intermedia proviene de propiedades del substrato neuronal. Puede haber una segunda razón. Supongo que las imágenes mentales surgen porque se activan las representaciones almacenadas en la memoria visual y estas mismas representaciones se utilizan durante el reconocimiento de objetos. Esto tiene sentido porque las representaciones que producen las imágenes deben basarse en codificaciones perceptuales; ¿de qué otro modo podrían almacenarse? (Incluso la imagen de una nueva escena u objeto debe basarse en objetos previamente vistos.) Y había comentado que estas representaciones se almacenan no sólo para su uso en la imaginería, sino que también juegan un papel vital en el reconocimiento de objetos. Si ello es así, podrían ser un obstáculo en el subsistema de activación de patrones si las representaciones activadas durante la imaginería estuvieran todavía plenamente activas cuando la información fluyera de la memoria visual intermedia. (151) Uno podría no reconocer un objeto si una imagen de otro objeto diferente se generara al mismo tiempo.

 

Transformaciones de la imagen

 

Un aspecto fundamental del modelo de Lowe es que una imagen “mental” se ajusta para lograr la mejor correspondencia posible con una imagen de entrada. Aunque rechazo la teoría fuerte de que las imágenes actúan como moldes durante el reconocimiento, he dicho que la función de correspondencia entre una representación almacenada y la memoria visual intermedia puede ajustarse de modo que la retroalimentación de la imaginería puede abarcar diferentes tamaños, ubicaciones y orientaciones en la memoria visual intermedia. Este mismo proceso también puede conciliar estos aspectos respecto de las imágenes mentales. En realidad, la habilidad para ajustar el tamaño, ubicación e incluso forma de un objeto imaginado se encuentra en el corazón  de muchas de las funciones de la imaginería. Frecuentemente usamos la imaginería como una especie de simulación mental, “mirar con los ojos de la mente” para anticipar las consecuencias posibles de alguna acción o acontecimiento.

 

CONCLUSIONES

 

En este capítulo, rompí el sistema ventral en dos subsistemas más finos. El subsistema de procesamiento extrae las propiedades no accidentales y las propiedades de señal. Estas propiedades pesan fuertemente en el subsistema de activación de patrones. El subsistema de activación de patrones almacena imágenes comprimidas a las que acceden conjuntos de propiedades no accidentales y de señales. Este reconocimiento de abajo hacia arriba se alcanza vía un proceso de cumplimiento de exigencia: se activa más fuertemente la representación del objeto cuyas propiedades encajan mejor con las del patrón de entrada y, por tanto, se inhiben con mayor fuerza las otras representaciones. El proceso de correspondencia respeta la exigencia de consistencia del punto de vista; para activarse, una representación debe ser consistente (152) con la visión de las propiedades de entrada desde un único punto de vista. Si la representación que más se ha activado está activada con suficiente fuerza, produce una salida, que especifica un código para ese objeto particular e indica en qué medida la entrada satisfizo la representación almacenada.

Sin embargo, mientras ocurre el procesamiento de abajo hacia arriba, comienza una segunda fase del proceso. Cuando la entrada ha activado una representación suficientemente fuerte como para inhibir las otras, esta representación envía una retroalimentación a la memoria visual intermedia; si es apropiada, esta retroalimentación aumenta la imagen de entrada, completándola de modo que se la codifica más rápidamente. La función de correspondencia entre la representación y la memoria visual intermedia se ajusta hasta que la retroalimentación completa mejor la imagen de entrada. Este proceso ajusta la función de correspondencia, modificando el tamaño, la ubicación y la orientación de la región que abarca en la memoria visual intermedia. Si la retroalimentación completa la imagen de entrada, esto es una indicación de que el objeto ha sido reconocido; si no, se inhibe la representación activada y la representación ahora más activada produce la retroalimentación de la imaginería y el proceso se repite.

Según esta teoría, entonces, el proceso que subyace a la imaginería mental juega un papel principal en la percepción normal. Las imágenes se generan usando las conexiones eferentes entre las áreas visuales, quizá aprovechando la “codificación grosera” para imponer patrones de activación en la memoria visual intermedia. Además, las imágenes mentales visuales están representadas en coordenadas centradas en el espectador, como lo están la mayoría de las representaciones en el subsistema de activación de patones. Y las propiedades de rápido deterioro de la imaginería, en parte, pueden ser una consecuencia necesaria para asegurar que el reconocimiento de un objeto o la activación de una imagen mental no bloquea el proceso de reconocimiento inhibiendo las representaciones en el subsistema de activación de patrones.

Sin embargo, ¿qué ocurre si una correspondencia inicial no es suficientemente buena, incluso siguiendo la retroalimentación de la imaginería? En tales circunstancias se tendrá que usar información adicional que implique un objeto específico.

 

 

 

 

(153) Cap. 6

Identificación de objetos en imágenes degradadas

 

Cuando un objeto no puede identificarse en base a información acerca de la forma, otros tipos de información jugarán un papel fundamental. La lógica de satisfacción de restricciones dictamina que, como una regla general, la información más pertinente es la mejor. Así pues, mi estrategia para investigar cómo se soluciona este problema es buscar fuentes de información adicional. ¿Qué otras clases de información extrae el sistema visual? Consideraremos cuatro tipos de información: movimiento, partes, propiedades espaciales y formas de ejemplares específicos.

 

MOVIMIENTO

 

El movimiento tiene un papel fundamental en dos tipos diferentes de procesos. Primero, ayuda a delinear un objeto en sí mismo. Los psicólogos de la Gestalt formularon la “ley del destino común”, que establece que estímulos que se mueven del mismo modo se agrupan en la (154) misma unidad perceptual. Así, incluso si la imagen de entrada está tan degradada que los contornos no son visibles cuando la imagen no se mueve, pueden hacerse inmediatamente evidentes tan pronto como el objeto se mueve.

Segundo, las indicaciones del movimiento pueden usarse para reconocer un objeto. Es claro que muchos objetos tienen patrones distintos de movimiento, tales como una hoja que cae, un gato saltando o un bate golpeando.

Tales observaciones sugieren que la información del movimiento entra en el subsistema de activación de patrones junto con la salida del subsistema de preprocesamiento. Así, he llegado a inferir que el subsistema de activación de patrones no sólo almacena imágenes estáticas, sino también información acerca del movimiento.

 

Subsistema de codificación de relaciones de movimiento

 

Hasta aquí, mi razonamiento sugiere que la información acerca del movimiento se extrae de la entrada de información y tiene el mismo estatus para el reconocimiento como las propiedades no accidentales y las de señales. Krumhansl (1984) aporta evidencia de que la información del movimiento y de la forma están codificadas por sistemas diferentes.

Así, he inferido un subsistema de codificación de relaciones de movimiento que codifica aspectos característicos de los campos de movimiento y opera en paralelo con el subsistema de preprocesamiento. Parece claro que el cerebro está “cableado” para codificar determinadas propiedades “estándares” de los campos de movimiento, las que indican si uno se está moviendo por un campo o si un objeto se  mueve respecto de uno. (155) Parece posible que el subsistema de codificación de las relaciones de movimiento se afinan con la experiencia. El proceso de afinamiento presumiblemente se apoya en la clase de aprendizaje que construye detectores de las propiedades de señales nuevas en el subsistema de preprocesamiento. ((417) Nota 1: Cavanagh (1992) demostró que el movimiento se codifica mediante dos sistemas, uno de bajo nivel y automático y otro que depende de la atención.)

 

Localización anatómica. Neuronas en diversas áreas del cerebro están afinadas como patrones del movimiento.

((156) Descripción de diferentes zonas y funciones)

Además de proporcionar información a V4, el área MT también envía información al sistema dorsal, lo que tiene sentido porque el movimiento indica la ubicación. En realidad, sin registrar el movimiento, sería muy difícil actualizar cambios en la ubicación. Así, el subsistema de codificación de las relaciones de movimiento es un buen ejemplo de una forma de modularidad débil; aunque juega un papel fundamental en codificar (157) las propiedades del objeto, también juega un papel en codificar las propiedades espaciales. Incluyo al subsistema de codificación de relaciones de movimiento en el sistema ventral por su papel en el reconocimiento del objeto pero puede argumentarse que pertenece al sistema dorsal.

 

PARTES Y TODOS

 

En algunas situaciones, reconocemos algunas partes de un objeto o sus características distintivas aun cuando no podamos reconocer un objeto completo. Y usamos esta información para ayudarnos a inferir la identidad del objeto. Sin embargo, aunque hablamos fácilmente de objetos y partes, la línea entre ellos no es clara. ¿Un rostro es un objeto o una parte? Como desarrolla Marr (1982) la mayoría de las formas pueden descomponerse jerárquicamente; las propias partes tienen partes. Según sobre qué este focalizada la ventada de atención, diferentes patrones se corresponderán con las representaciones almacenadas.

En la mayoría de las situaciones, una entrada dada se corresponderá con más de un patrón almacenado, al menos por la estructura jerárquica de los objetos. Dado que la salida suele especificar un único patrón, tiene que existir un mecanismo para seleccionar entre los candidatos. En el capítulo anterior sugerí que un mecanismo de “el ganador toma todo” selecciona la representación de mejor correspondencia. Si es así, entonces las representaciones de los patrones mayores inhibirían las representaciones de los menores cuando se está atendiendo a un patrón mayor. Cuando mayor es el patrón almacenado, más propiedades de la entrada puede hacerse corresponder al mismo tiempo. Y cuanto mejor se corresponde el patrón representado con la entrada, con mayor fuerza se activa ésta; cuanto con mayor fuerza se activa, mejor inhibe a las otras representaciones activadas con menor fuerza.

Esta propuesta es coherente con el hallazgo de Navon (1977) acerca de un “efecto de precedencia global”. Al pedir a los sujetos que miren grandes letras compuestas por otras pequeñas (p.e., una S hecha con conjuntos de letras H) podrían identificar la forma mayor más rápido que las menores. Este efecto global de precedencia se mitiga si el patrón es muy grande o está distorsionado.

(158) Sin embargo, una cantidad de otros factores afecta, a veces, el orden según el cual están codificados el patrón global y las partes locales. (incluyendo la familiaridad, incertidumbre espacial y durante cuanto tiempo se presenta el estímulo).

Se han obtenido distintas clases de evidencia acerca de cómo primero se codifica la forma global y después, en subsiguientes codificaciones, los detalles específicos.

 

Análisis perceptual

 

Para codificar partes, algo debe delinearse en la imagen de entrada. (159) En el desarrollo anterior, sólo consideré vagamente cómo se analizan las unidades perceptuales. Observé que las propiedades no accidentales y de señal se registran sólo después de que la imagen de entrada ha sido organizada en, por lo menos, algunas unidades perceptuales. Uno de los rasgos interesantes del sistema de Lowe es que la separación figura – fondo no necesita cumplirse completamente en base al procesamiento de abajo hacia arriba. Más bien, la retroalimentación de la imaginería puede ayudar a organizar la entrada perceptual. Tal procesamiento sería especialmente útil cuando la memoria visual intermedia contiene un mosaico de proyecciones de objetos diferentes que se superponen parcialmente, cada uno de los cuales con frecuencia contiene partes, que también se superponen parcialmente.

Sin embargo, tal correspondencia de retroalimentación no puede ser esencial para toda separación figura – fondo: se pueden codificar formas nuevas que no tienen una imagen correspondiente almacenada en la memoria. Además, ¿cómo se podría codificar una imagen en la memoria por primera vez si tuviera que tenerse la representación de una imagen previa para analizar la entrada? Las imágenes de entrada aparentemente pueden separarse a partir de la entrada per se, aunque los bordes solos no puedan separar la figura del fondo. El proceso de análisis consiste en la satisfacción de las restricciones, con una variedad de información débilmente restrictiva convergiendo en una única interpretación. En este caso, se usan simultáneamente diversos tipos de información para definir una imagen. Por ejemplo, regiones de valor homogéneo (en color, textura o intensidad) pueden usarse junto con información acerca de los bordes para definir unidades perceptuales.

Resultados (de investigaciones al respecto) nos conducen a esperar que varios de los mismos factores que sirven para definir los objetos como un todo, también definan las partes. Tales procesamiento de abajo hacia arriba analizarán también las regiones correspondientes a las partes.

(160) El problema con este y otros hallazgos semejantes es que las partes “buenas” también corresponden a conjuntos de propiedades no accidentales producidas por análisis de abajo hacia arriba y las partes “malas” requieren desorganizar esas propiedades no accidentales. (161) Los resultados mostrarían simplemente que los conjuntos de propiedades no accidentales estaban almacenados y los patrones que contienen esas propiedades son fáciles de reconocer mientras que los patrones que cortan a través esas propiedades no son fáciles de reconocer.

 

El papel de las partes en el reconocimiento. La hipótesis de que las partes se almacena individualmente condujo a muchos investigadores a asumir que todas las formas pueden especificarse según conjunto de partes; la idea de un “alfabeto de formas” proviene de los comienzos de la visión computada. Biederman, por ejemplo, propone un conjunto de “geones” (iones geométricos) que representa un rango de simples variaciones de forma. Cada geon corresponde a una forma elemental y todas las formas están representadas por la combinación de los geones. Biederman usa la idea de Lowe acerca de las propiedades no accidentales y afirma que cada geón es accesible mediante un conjunto de tales propiedades. El mismo Lowe (1987) parece no necesitar de tales representaciones; en su sistema las propiedades no accidentales acceden a las representaciones del objeto directamente.

(162) Estímulos usados por Biederman y Cooper.

(163) Los hallazgos son consistentes con la afirmación de que los sujetos codifican una representación de la forma global del estímulo en todos los casos. Los estímulos tienen las mismas formas globales cuando se han borrado porciones diferentes de los contornos, pero tienen formas globales distintas cuando se han borrado partes diferentes.

Alternativamente, el hecho de que haya menos adhesión con las partes complementarias que con las partes idénticas, puede indicar que los sujetos realmente codifican y reconocen partes. De todas formas, tal resultado no implicaría necesariamente que los sujetos codifican las partes como un prerrequisito para reconocer los objetos normalmente. Quizá las partes sólo se usan si el estímulo está tan degradado que la forma global no encaja en la representación almacenada.

(164) Figura 6.4 Estímulos usados por Cave & Kosslyn (1993)

(165)(166) Estos resultado proporcionan un fuerte soporte a la importancia de la restricción del la consistencia del punto de vista: los fragmentos han de ser consistentes con el hecho de ver un objeto desde un único punto de vista para que los sujetos identifiquen el objeto fácilmente. Pero los resultados contradicen la idea de que los objetos están representado como formas elementales; simplemente no es cuestión de cómo se dividen los objetos en piezas. Si la entrada puede contrastarse con la forma general directamente, la representación de las partes no juega ningún papel en el proceso de identificación.

En resumen, el peso de la evidencia sugiere que la gente intenta primero proyectar el patrón general que corresponde a un objeto y no siempre proyecta las representaciones de las partes. Si la imagen está degrada, no obstante, de modo que el patrón general no pueda proyectarse, entonces proyectarán la entrada sobre representaciones de las partes individuales. Es posible que las partes hayan sido codificadas y almacenadas previamente y por ello están disponibles para la proyección en una cantidad de circunstancias. Es especialmente posible analizar las partes cuando un objeto está relativamente cerca, de modo que sus partes se vean con alta resolución y sean visibles las discontinuidades en las cualidades perceptuales. Además, cuando los objetos están (167) próximos, con frecuencia se los examina en el curso de múltiples fijaciones de los ojos. En este caso, las imágenes de partes diferentes pueden caer sobre la fovea en distintos momentos de tiempo y se está forzado a codificar las partes individualmente. Además, es posible que uno se fije en las partes, más que en porciones arbitrarias de un objeto, si las partes tienen atributos con estímulos diferentes y, por tanto, el subsistema de cambio de atención basado en el estímulo dirige hacia ellos la atención. También es posible que se codifiquen partes cuando se ve a los objetos en circunstancias que impiden la proyección del patrón completo y así las partes son las unidades perceptuales mayores. Finalmente, se codificarán las partes si se la ve aisladas.

Además, en algunas situaciones, características diferenciales tales como la textura de ananá o un color de una autobomba de incendios, puede reconocerse cuando no se puede la forma. Estas características distintivas (que están especificadas como conjuntos de propiedades de señal extraídas por el subsistema de preprocesamiento) juegan el mismo papel en el reconocimiento que la partes y se las tratará del mismo modo.

Aunque he asumido que el subsistema de activación de patrones incluye una representación de la forma general y representaciones de las partes y características distintivas, esto no significa que esté implicando que las representaciones de la forma general no tenga una estructura interna. Una representación de una imagen comprimida tiene un organización interna. Se ha demostrado que la preparación (priming) ocurre con los patrones visuales nuevos sólo cuando los patrones podrían corresponder a objetos posibles; no hay preparación con patrones imposibles, tipo Escher.

 

(168) PROPIEDADES ESPACIALES

 

En algunas circunstancias, se usan las propiedades espaciales, tales como el tamaño o la ubicación de un objeto, para identificar el objeto. En realidad, la información espacial puede jugar un papel importante, ayudando a identificar partes que, a su vez, se usan para identificar el objeto. Dado que el sistema dorsal opera después de que la entrada ha sido identificada, probablemente trata a los objetos y a las partes del mismo modo; codifica propiedades espaciales de unidades perceptuales sin “saber” si corresponden a objetos o a partes.

Sin embargo, para ser útiles a la identificación, las propiedades espaciales deben caracterizar al objeto o a la parte, no a la imagen propiamente dicha. Hay que saber cuál es el tamaño del gato o cuál es la relación del sombrero con la cabeza; no cuál sea el tamaño de la imagen o dónde cae en la retina. Una imagen se especifica en relación con la retina y por tanto cambia cada vez que uno mueve la cabeza o los ojos. Por lo tanto, tiene que haber un mecanismo que convierta a las coordenadas espaciales en la memoria visual intermedia en un tipo diferente.

 

Subsistema de proyección espaciotópico

 

Yo plateo que el subsistema de proyección espaciotópico convierte a las coordenadas retinotópicas de la memoria visual intermedia en coordenadas más estables, basadas en las partes del cuerpo u objetos externos. Este subsistema especifica una ubicación, tamaño y orientación para cada unidad analizada en las tres dimensiones. Todos estos tipos de información pueden ayudar a identificar los objetos en las imágenes degradadas.

 

Sistemas de referencia. La ubicación debe especificarse respecto de algo y diferentes sistemas de referencia son más o menos útiles para tareas diferentes. Según la situación, puede resultar apropiado ubicar un objeto respecto del observador o respecto de otro objeto.

Los sistemas de referencia pueden caracterizarse respecto diversas dimensiones. Para registrar las distinciones más comúnmente usadas, los objetos pueden ubicarse respecto de la retina (coordenadas retinotópicas) o de un punto de anclaje en el espacio (coordenadas espaciotópicas). Si se usan coordenadas espaciotópicas, pueden especificarse respecto del cuerpo (coordenadas centradas en el cuerpo) o de otro objeto (coordenadas alocéntricas). Si se usan coordenadas centradas en el cuerpo, pueden basarse en la cabeza (craneotópicas) o en el cuerpo. Si se usan coordenadas alotópicas, puede especificarse en relación al observador (centradas en el observador) o respecto del propio objeto (centradas en el objeto); por el contrario, las coordenadas retinotópicas y las centradas en el cuerpo están, por definición, siempre centradas en el observador porque especifican la ubicación respecto del propio punto de vista.

En todos los casos, la ubicación puede especificarse con diferentes parámetros, tales como los usados en las coordenadas cartesianas o las coordenadas polares (un radio y un ángulo planar y de profundidad a partir de un origen). Además, las coordenadas pueden incluirse en los procesos que guían la acción (coordenadas implícitas) o proyectadas sobre las ubicaciones de representaciones almacenadas, tal como ocurre durante el reconocimiento (coordenadas explícitas). En ambos casos, las coordenadas locales pueden usarse para especificar partes en relación unas con otras, con diversos orígenes diferentes formando un sistema de coordenadas entrelazadas o bien pueden usarse coordenadas globales para especificar la ubicación respecto de un único origen.

Además, el sistema de referencia depende, en cierta medida, de cómo se representa la forma; la forma de objetos y partes puede especificarse en 2, 3 o 2.5 dimensiones (una dimensión 2.5 es como un bajo relieve; especifica sólo la parte de la tercera dimensión que se proyecta desde el objeto hacia el observador). Las representaciones de dos y 2.5 dimensiones están necesariamente centradas en el observador, mientras que las representaciones tridimensionales pueden estar centradas tanto en el observador como en el objeto.

Resultaría obvio que hay una gran cantidad de tipos posibles de sistemas de referencia. Sorprendentemente se han realizado pocas investigaciones acerca de los (170) tipos precisos de sistemas de referencia que se usan para tipos específicos de tareas. Es claro, sin embargo, que las representaciones retinotópicas no son útiles si se pretende agarrar un objeto, atender a la ubicación específica de un objeto o diferenciar los tamaños o ubicaciones de los objetos; otros tipos de sistemas de referencia son necesarios.

 

Un subsistema diferente. La observación de que el cerebro transforma las coordenadas retinotópicas en otros tipos de coordenadas no implica la existencia de un subsistema distinto. Puede argumentarse que los subsistemas que codifican la información espacial en la memoria o que la usan para guiar los movimiento realizan esta transformación además de sus otras obligaciones. Yo formulo la hipótesis de la existencia de un subsistema de proyección espaciotópico diferente por las siguientes razones.

Primero, un subsistema de proyección espaciotópico diferente simplifica las tareas de otros subsistema que codifican las relaciones espaciales en la memoria o que usan información espacial para guiar los movimientos.

Segundo, es necesaria alguna clase de coordenadas no retinales para calcular todas las representaciones de información espacial que son útiles.

Tercero y más especulativo, los organismos primitivos necesitan representarse la ubicación respecto del cuerpo para acercar el alimento y la pareja y evitar los predadores, incluso si su habilidad para recordar ubicaciones no fuera especialmente impresionante.

Yo sostengo que el subsistema de proyección espaciotópico produce representaciones explícitas de las coordenadas. Semejante “mapa” generalizado podría ser accesible mediante una cantidad de subsistemas diferentes, tales como los usados en la navegación, en la codificación de información espacial en la memoria y para transformar las imágenes.

(171) Algunos han argumentado que lo que yo llamo subsistema de proyección espaciotópico de hecho corresponde a dos subsistemas distintos, uno que calcula ubicaciones en el espacio cercano (usando coordenadas basadas en el cuerpo) y otro que calcula ubicaciones en el espacio distante (usando coordenadas alocéntricas).

(172) Consideraría difícil obtener evidencia decisiva acerca de que existen dos representaciones del espacio diferentes, en cuanto diferenciable de la evidencia de que los dos sistemas usan la información espacial de modo diferente; uno que guía la orientación y los movimientos del cuerpo y otro que representa la información espacial para el reconocimiento, la exploración espacial y la navegación a gran escala. Por tanto, dejo abierto el tema, pero por ahora asumiré que el mismo (burdamente caracterizado) subsistema de proyección espaciotópica calcula todas las coordenadas visuales no retinotópicas.

 

Ubicación, tamaño y orientación.

El sistema dorsal debe codificar los tamaños de los objetos y de las partes. Una representación tridimensional del tamaño de una parte u objeto es fundamental si se trata de no chocar con ello durante la navegación. Además, el tamaño de un objeto o parte puede ayudar a identificarlo. A un nivel conceptual, hay razones para suponer que un sistema que registre la ubicación también registraría el tamaño. El tamaño es, ante todo, el sistema de las pequeñas ubicaciones que ocupa un objeto. [nota 4, pg. 418. El concepto de tamaño es complejo. En cierto sentido, el tamaño está implícito en el sistema ventral si están representadas las relaciones parte-todo. Sin embargo, el tamaño relativo podría derivarse de tales representaciones, sólo respecto de partes del mismo objeto y la información del tamaño métrico no estaría representada.]

Argumentos semejantes nos conducen a esperar que el sistema dorsal codifique también la orientación. En realidad existe una correspondencia simple entre orientación y ubicación. En general, la orientación de un objeto puede recuperarse quebrándolo en partes y observando sus respectivas ubicaciones. Pero el sistema visual parece tratar la orientación como una propiedad “primitiva”; las neuronas a muchos niveles del sistema visual están sensibilizadas para la orientación. Más bien, resulta claro que las dos propiedades espaciales, orientación y ubicación, están vinculadas conceptualmente y serían útiles para tareas semejantes.

 

Niveles de resolución. La memoria visual intermedia representa la entrada a múltiples escalas de resolución y la entrada se reagrupará en unidades a cada escala. Es claro que puede representarse la ubicación a múltiples escalas. Para encontrar una aguja y para (173) no atropellar a la gente. Estas observaciones conducen al tema de si las ubicaciones a más de un nivel de resolución se computan simultáneamente mediante el subsistema de proyección espaciotópico.

Se presentan tres posibilidades. El subsistema podría calcular: (1) sólo la ubicación del objeto o parte al que habitualmente se atiende; (2) la ubicación de cada región analizada a cada escala; o (3) las ubicaciones de todas las regiones analizadas que están al nivel de resolución al que uno está tendiendo.

La primera posibilidad puede eliminarse simplemente ante el hecho del procesamiento previo a la atención. Para dirigir la atención a objetos que no son habitualmente objeto de atención, es necesario representarse las ubicaciones de los objetos fuera del campo de atención.

La segunda y tercera posibilidades no pueden evaluarse tan fácilmente. Sin embargo, el razonamiento que me conduce a plantear una ventana de atención puede aplicarse aquí. Recuérdese que la atención selectiva puede reflejar en parte la existencia de líneas de transmisión de datos de capacidad limitada; sólo esa información puede trasmitirse por las conexiones anatómicas. Si esos límites restringen la afluencia de datos al sistema dorsal, entonces la opción es eliminar algunas ubicaciones a cada nivel de resolución o eliminar la totalidad de los niveles de resolución.

 

(174) Ubicación anatómica. El subsistema de proyección espaciotópico está instalado en el lóbulo parietal posterior. Aunque una variedad de áreas en el lóbulo parietal posterior participan en la codificación de la información espaciotópica, el área 7ª parece particularmente posible que juegue un papel en este proceso. No sólo las neuronas en esta área tienen propiedades que les permitirían convertir las coordenadas retinotópicas en espaciotópicas, sino que esta área tiene ricas conexiones con las parte de “orden superior” del cerebro que presumiblemente usarían tal información.

Aunque el subsistema de proyección espaciotópico parece estar duplicado bilateralmente, el hemisferio derecho parece jugar un papel especial en esta función. Mesulam (1981) demuestra que el lóbulo parietal derecho calcula una representación de las dos mitades del espacio y Corbetta et al. (1993) presentan evidencia PET de que el hemisferio derecho tiene una representación diferente por cada campo visual mientras que el izquierdo sólo tiene una única representación.

(175) El subsistema de proyección espaciotópica juega un papel fundamental en la caracterización de la tridimensionalidad de un objeto, lo que ayudaría a identificar objetos en imágenes degradadas. (“el conocimiento visual semántico” de Warrington & James)

(176) Hay considerable evidencia acerca de que el sistema dorsal calcula la información acerca de la profundidad.

Probablemente, la información tridimensional no está especificada en detalle en el sistema ventral; no siempre se necesita esta información para reconocer objetos, como lo testimonia el simple hecho de que se puedan reconocer dibujos lineales. (De hecho, el sistema de Lowe usa representaciones bidimensionales como entrada.)

 

Resolución de una inconsistencia. La inferencia de que el subsistema de proyección espaciotópico se cumple en el lóbulo parietal posterior, análogo en el humano al área 7ª, conduce a otra potencial incertidumbre. En el capítulo 4 manifesté que la segregación del procesamiento de las propiedades del objeto y de las propiedades espaciales lleva al sistema a ignorar la ubicación cuando reconoce la forma. Groos & Mishkin (1977) mencionan los muy grandes campos receptivos de las neuronas en el área IT como apoyo de esta hipótesis; estas neuronas codifican las propiedades del objeto cuando un estímulo aparece en un amplio rango de posiciones en el campo visual. El problema consiste en que las neuronas (177) en el área 7ª tienen campos igualmente grandes y estamos infiriendo que esas neuronas codifican la ubicación.

El hecho de que ambos tipos de neuronas tengan campos receptivos grandes no indica que ninguna de ellas pueda codificar la ubicación con exactitud. Grandes campos receptivos superpuestos pueden, en principio, codificar la ubicación mediante codificación grosera. Entonces, se formula la pregunta, ¿hay propiedades de las neuronas de IT que perjudican el uso de la codificación grosera para registrar la ubicación y, a la inversa, hay propiedades en las neuronas de la zona 7ª que fomentan el uso de la codificación grosera para registrar la ubicación?

Conjeturamos que las propiedades del campo receptivo de las neuronas en el área 7ª pueden facilitar el uso de codificación grosera para representar la ubicación, mientras que las propiedades del campo receptivo de las neuronas de IT no facilitan tal codificación.

 

(178) DOS ESTRUCTURAS DE LA MEMORIA VISUAL         

 

La información acerca del movimientos, de las partes y de las propiedades espaciales de los objetos y de las partes, pueden jugar un papel ayudando a identificar objetos cuando sus imágenes están degradadas. Puede ayudarse más a este proceso si el sistema ventral está mejor capacitado para usar claves fragmentarias. Un modo de como esto puede ocurrir es detectando ejemplares específicos así como miembros de una categoría. Los ejemplares específicos con frecuencia tienen características idiosincrásicas diferenciales (p.e., patrones de marcas de superficie), que no ayudan a identificar a todos los miembros de una categoría, pero que ayudarán a identificar ese ejemplar.

Considérese el problema de cómo construir un sistema que pueda identificar un objeto como un miembro de una clase, como un perro, y que también pueda identificar un objeto como un ejemplar específico, como Fido. Para un objetivo categorizador, se prescinde de la información que distingue un objeto de otro en una clase. Pero es esta concreta información la que es fundamental para identificar el ejemplo específico. Las dos proyecciones son incompatibles, lo que conduce a hipotetizar que subsistemas separados codifican los dos tipos de información. Es más, la evidencia empírica sugiere que un subsistema de activación de patrones de ejemplares codifica ejemplos específicos de un tipo de estímulo (p.e., Rover, no perros en general), mientras que un subsistema de activación de patrones de categoría codifica clases de objetos.

 

Evidencia empírica

(179) Las formas categorizadas serían especialmente útiles para el lenguaje; tales categorías se nombrarían fácilmente. Probablemente la afirmación menos discutida en neuropsicología es que el hemisferio izquierdo es fundamental para la producción y comprensión del lenguaje (al menos, en los machos diestros). Otra afirmación indiscutida en neuropsicología es que el hemisferio derecho juega un papel especial en el desplazamiento. La información acerca de las formas específicas de los objetos tiene una importancia obvia en el desplazamiento; se necesita saber más que que un objeto es una mesa para moverse a su alrededor; se necesita conocer también su forma específica. Tales consideraciones nos llevan a suponer que el hemisferio izquierdo puede estar más adaptado para almacenar información visual categórica acerca de la forma y el derecho puede ser más adecuado para almacenar ejemplares específicos. Si encontramos tal disociación, tendremos evidencia de que los dos subsistemas existen  para almacenar información acerca de la forma [nota 8, pg. 418. Quiero destacar de nuevo que yo supongo que los hemisferios difieren en el grado de especialización, no de modo absoluto. Espero que todos los subsistema se incorporen bilateralmente, pero que difieren en su eficacia relativa, en cada hemisferio.]

(180) (181) También debo observar que se ha informado de otros resultados que no son consistentes con esta distinción

 

(182) El papel de las diferencias en los tamaños de los campos receptores.

 

(183)(184)(185)(186)

 

(187) Localización anatómica

 

Milner (1968) demostró hace bastante tiempo que los pacientes que tenían el lóbulo derecho temporal anterior removido, tenían un déficit selectivo para reconocer rostros determinados, lo que es consistente con la afirmación de que el subsistema de activación de patrones ejemplares es más efectivo en el lóbulo temporal del hemisferio derecho.

 

(188) Resumen: identificación de objetos en imágenes de entrada degradada

 

Identificamos objetos en las imágenes de entrada degradada utilizando procesos de exigencia (constraint) de satisfacción. Cuando las imágenes están degradadas, información que de otro modo sería de poca importancia in la identificación de los objetos se vuelve principal. Se utiliza el movimiento, las partes, las propiedades espaciales de los objetos y de las partes y las formas de ejemplares y categorías (quizá representadas como prototipos) para identificar objetos. Toda esta información se codifica en los sistemas ventral y dorsal y después se envía a la memoria asociativa. Estos varios tipos de información convergen en la memoria asociativa para implicar un determinado objeto.

 

IMAGINERÍA Y PERCEPCIÓN

 

Los subsistemas aquí propuestos juegan un papel principal en la imaginería mental visual. Por ejemplo, la distinción entre subsistemas de activación de patrones de categoría y ejemplar anticipa que podemos ver tanto prototipos como ejemplares.

De modo semejante, los otros subsistemas juegan sus papeles en el reconocimiento de patrones respecto de objetos o escenas imaginados. El sistema dorsal juega un papel fundamental en el proceso de generar imágenes con múltiples partes.

 

(189) CONCLUSIONES

 

Una combinación de análisis calculatorios, modelos de simulación de computadora y resultados neuropsicológicos, convergen para inferir tres subsistemas de procesamiento adicionales. El subsistema de codificación de las relaciones de movimiento, el subsistema de proyección espaciotópico y el subsistema de activación de patrones. El subsistema de activación de patrones categóricos clasifica un estímulo como un miembro de una categoría visual y el subsistema de activación de patrones ejemplares registra que éste es una instancia particular.

El proceso expuesto hasta aquí permitirá identificar los objetos según entradas de imagen moderadamente degradadas. Si una imagen está muy degradada, sin embargo, sólo se podrá formar un supuesto grueso respecto a la identidad del objeto siguiendo la codificación inicial y puede necesitar buscar información adicional para confirmar su conjetura.

 

 

 

 

 

 

 

 

(191) Cap. 7

Identificación de objetos retorcidos

 

Quizá el problema más difícil en la identificación de objetos ocurre cuando un objeto está retorcido de modo distinto, de modo que su forma es diferente de cualquier forma familiar asociada con el objeto. Cuando sólo se establece una pobre relación, otras clases de información: movimiento, partes, características diferenciales y propiedades espaciales, pueden ayudar para identificar un objeto.

La lógica del análisis calculatorio no conduce a buscar propiedades de la entrada que se hayan preservado a través de las diferentes formas que un objeto puede asumir. Una de tales propiedades es la identidad de las partes. Si el sistema puede identificar las partes, tiene fuertes claves para identificar el objeto

Obsérvese también que un objeto es más que la suma de sus partes, el ordenamiento de las partes se por lo general un rasgo fundamental de la identidad del objeto. Por lo tanto es importante observar que no cambien las relaciones espaciales entre las partes de los objetos retorcidos, dando por supuesto que las relaciones espaciales se describen a un nivel relativamente abstracto. Por tanto, si el sistema puede identificar las partes y calcular relaciones espaciales relativamente abstractas entre ellas, puede describir la estructura de un objeto sin tomar en cuenta cómo está configurado. Es claro que se puede identificar un objeto incluso cuando sólo se ve una parte en cada oportunidad y, por tanto, se está obligado a integrar las partes y sus ubicaciones en la memoria.

(192) Pero en algunas oportunidades, las partes visibles y sus relaciones espaciales no son suficientes para permitir identificar un objeto a primera vista. En tales circunstancias, el sistema actúa en un modo de resolución de problemas, que es relativamente laborioso. La relación entre imaginería y percepción viene a primer plano cuando se considera este modo de prueba de hipótesis de alto en bajo (top-down). En realidad, esta resolución de problema visual abarca, virtualmente, a todo el proceso de la imaginería. En este capítulo describo los subsistemas que se usan para codificar relaciones espaciales y los que se usan en tal resolución de problemas visuales.

 

RELACIONES ESPACIALES CATEGÓRICAS VERSUS COORDENADAS

 

El subsistema de proyección espaciotópica realiza una transformación coordenada; no calcula tipos diferentes de relaciones espaciales. Usar la ubicación para identificar la cosa sobre la cabeza de alguien como un sombrero, requiere saber que eso está sobre la cabeza. Yo diferencio dos clases distintas de representaciones de relaciones espaciales, que tienen papeles muy diferentes en el procesamiento de la información.

El subsistema de proyección espaciotópica sólo realiza una transformación coordenada; no especifica coordenadas de base motriz, ni almacena información. Por tanto, hay una buena razón para proponer un subsistema adicional. Yo hipotetizo un subsistema de codificación de relaciones espaciales coordenadas, que codifica información espacial de modo que sea útil para guiar la acción.

Un aspecto fundamental de las representaciones codificadas por el subsistema de codificación de relaciones espaciales coordenadas es que especifican relaciones espaciales métricas. Yo me he visto conducido a hipotetizar que (193) el subsistema de codificación de relaciones espaciales coordenadas no sólo calcula relaciones métricas entre regiones diferentes analizadas, sino que también calcula mediciones métricas de tamaño y orientación.

Sin embargo, muy pocos, si algunos, tipos de objetos deben diferenciarse puramente sobre la base de relaciones espaciales métricas entre sus partes. Es más, para identificar un estímulo como un miembro de una categoría, como un perro o una bicicleta, hay que ignorar el ordenamiento espacial exacto entre las partes, que varía para ejemplares diferentes. Esta exigencia puede ser una razón por la cual organizamos las partes utilizando relaciones tales como conectado/desconectado, dentro/fuera, izquierda/ derecha, arriba/ abajo y otras. Cada una de estas relaciones espaciales trata como equivalentes un gran conjunto de posiciones relativas; los miembros de cada clase sólo necesita compartir una característica de su posición. Por ejemplo, un objeto puede esta encima de otro sin tomar en cuenta sus posiciones respecto del eje horizontal. Dado que estas representaciones definen tales clases de equivalencias, las llamo relaciones espaciales categóricas.

Las representaciones de relaciones espaciales métricas son cualitativamente diferentes de las representaciones de relaciones espaciales categóricas. Una representación métrica es “densa”; o sea, una cantidad indefinida de casos intermedios cae entre cualesquiera dos relaciones. Por el contrario, una relación categórica es discreta, no densa; por ejemplo, no hay rango de valores intermedios entre dentro y fuera o entre encima, a nivel y debajo. Aunque en algunos casos una relación categórica espacial puede subsumir un rango de coordenadas (p.e., cerca y fuera), muchas relaciones categoriales no tienen las relaciones métricas correspondientes.

Además, las relaciones espaciales categóricas difieren cualitativamente unas de otras; por ejemplo, encima no es una caracterización más fina de las diferentes versiones de a la izquierda de. Las categorías representadas pueden ser relativamente generales (p.e., conectado a) o específicas. Pero en todos los casos, las representaciones de relaciones espaciales categóricas captan las propiedades generales de una relación sin especificar su posición en detalle (p.e., “conectado mediante una bisagra” sin especificar el ángulo preciso).

(194) Por tanto, las dos clases de información son conceptualmente diferentes y son necesarios diferentes proyecciones para derivarlas de la entrada. Recuérdese que los subsistema se caracterizan por la proyección entrada/salida que ejecutan; cuanto más grande es la diferencia entre dos proyecciones, es más posible que las realicen subsistemas diferentes. Dado que las relaciones espaciales métricas son diferentes en este sentido de las relaciones espaciales categóricas, yo hipotetizo que las proyecciones se calculan mediante subsistemas distintos. El subsistema de codificación de relaciones espaciales categóricas produce un “código espacial” que especifica una relación categórica entre dos o más objetos, partes o características, o que especifica el tamaño o la orientación de un único objetos, parte o característica. Estos códigos espaciales, a diferencia de los coordenados producidos por los subsistema de codificación de relaciones espaciales coordenadas, son representaciones proposicionales.

 

Pruebas empíricas

 

Kosslyn et al. (1989) informaron de una serie de experimentos que proporcionan apoyo a la existencia de subsistema diferentes que codifican las relaciones espaciales categóricas y coordenadas. [los hemisferios izquierdo y derecho] Aunque mis colegas y yo pensamos que ambos subsistemas se implementan en cierta medida en ambos hemisferios, conjeturamos que el subsistema de codificación de relaciones espaciales categóricas puede ser más efectivo en el hemisferio cerebral izquierdo. Segundo, existe buena evidencia neuropsicológica de que el desplazamiento depende del procesamiento en el hemisferio cerebral derecho.

(195) La lógica del experimento se apoya en un simple hecho de neuroanatomía. La retina es en realidad una parte del cerebro que fue expulsado. En realidad, Dowling (1987) llama a la retina “una parte alcanzable del cerebro”. Además, la parte izquierda de cada retina puede pensarse como una extensión del hemisferio izquierdo y la parte derecha de cada retina como una extensión del hemisferio cerebral derecho.

 

(196)(197)(198) Evidencia convergente. Los resultados, por tanto, proporcionan evidencia acerca de la existencia de subsistemas diferentes que codifican las relaciones espaciales categóricas y coordenadas. Cuando se comparan los resultados de estos y otros experimentos semejantes, (199) encuentra fundamento consistente que los sujetos pueden evaluar mejor las relaciones categóricas cuando los estímulos se presentan inicialmente ante el hemisferio izquierdo (aunque, con frecuencia, en muy pequeña proporción), mientras que pueden evaluar mejor la distancia cuando los estímulos se presentan inicialmente ante el hemisferio derecho.

 

(199)(200)(201)(202) Efectos de la práctica. Kosslyn et al. (1989) también encontraron que, después de mucha práctica, el hemisferio izquierdo se hacía experto para codificar la distancia. [nota 9 (419): Rybash y Hoyer (1992) también encontraron evidencia de que los varones tienen mayores asimetrías funcionales que las mujeres al codificar los dos tipos de relaciones espaciales. Los varones tienden a actuar mejor que las mujeres en las tareas coordenadas, y al contrario en las tareas categoriales.]

(203) Los resultados sugieren que probablemente es un error concebir las representaciones de las relaciones espaciales categóricas como estáticas.

 

Modelos computacionales

 

Kosslyn et al. (1992) construyeron modelos de redes que calculaban representaciones de relaciones espaciales categóricas y coordenadas. Estos modelos sirvieron a dos propósitos. Primero, proporcionaron otra clase de evidencia acerca de que las dos clases de subsistemas de relaciones espaciales eran, efectivamente, diferentes. Segundo, demostraron que un simple mecanismo es suficiente para producir la observada especialización hemisférica.

 

(204) Un mecanismo calculatorio. La distinción entre relaciones espaciales categóricas y coordenadas surge en parte de la inferencia de que las relaciones espaciales coordenadas se usan en el control de la acción, mientras que las relaciones espaciales categóricas se usan en la identificación de objetos. En particular, observamos que el control de la acción depende de la representación exacta de la ubicación espacial.

El hemisferio derecho puede procesar preferentemente entradas de las neuronas visuales de bajo nivel que tienen campos receptivos relativamente grandes, lo que puede explicar la habilidad superior del hemisferio derecho para codificar ubicaciones precisas. Por el contrario, el hemisferio izquierdo puede procesar preferentemente entradas de las neuronas visuales que tienen campos receptivos relativamente pequeños. En este caso, conjuntos de campos receptivos no superpuestos, relativamente pequeños pueden usarse para delinear paquetes de espacio, tales como las regiones que están encima o debajo de un punto de referencia, etc.

(205) Las salidas de las neuronas con campos receptivos grandes serían útiles en el proceso preatencional.

 

(206) Comprobando una predicción

 

Kosslyn, Anderson, Hillger y Hamilton (en prensa) probaron una predicción de la hipótesis de que el hemisferio derecho recibe proporcionalmente más entradas de las neuronas que tienen campos receptivos relativamente grandes de lo que lo hace el hemisferio izquierdo.

(207)(208) En resumen, los resultados de los experimentos de campo visual dividido, de los estudios de pacientes y de los modelos de redes neurológicas conducen a dos conclusiones. Primera, tenemos (209) buena evidencia convergente de que las relaciones espaciales categóricas y coordenadas están codificadas por subsistemas diferentes. Los experimentos no sólo muestran disociación hemisférica para los dos tipos de cálculos, sino que los modelos de red proporcionan evidencia acerca de que las dos clases de relaciones espaciales son conceptualmente diferentes. Segunda, los modelos de red ilustraron un simple mecanismo que puede explicar por qué los dos tipos de procesamiento están lateralizados.

 

Representaciones complementarias dorsal y ventral

 

La diferencia entre representaciones categóricas y coordenadas en el sistema dorsal es análoga a la que se da entre representaciones categóricas y ejemplares en el sistema ventral. Es importante, no obstante, tener presente la diferencia entre propiedades del objeto y propiedades espaciales. El sistema ventral no representa las relacione espaciales por sí mismo.

(210) Sin embargo, las propiedades de las dos clases de representaciones espaciales aparecen equiparadas a aquellas de las dos clases de representaciones de formas. Parece que las representaciones de ejemplares específicos habrán de resultar especialmente útiles cuando se utilizan relaciones espaciales coordenadas. Por el contrario, la información acerca de las categorías es relevante cuando se usan relaciones espaciales categóricas.

En general, cuando grandes campos receptivos superpuestos filtran la entrada, las redes están más capacitadas para codificar las relaciones espaciales coordenadas y ejemplares de forma; cuando pequeños campos receptivos no superpuestos filtran la entrada, las redes están más capacitadas para codificar relaciones espaciales categóricas y categorías de formas. Sin embargo, incluso sin fijar las propiedades del campo receptivo por adelantado, las redes que realizan las dos tareas desarrollan espontáneamente campos receptivos de diferentes tamaños; los que codifican ejemplares de información métrica desarrollan campos receptivos mayores que aquellos que codifican formas o categorías espaciales.

 

Dos tipos de cálculos de relaciones espaciales categóricas

 

Debo observar que las relaciones espaciales categóricas pueden de más de un modo. Ullman (1984) desarrolla convincentemente, sobre fundamentos calculatorios, que algunas relaciones espaciales categóricas deben calcularse utilizando procesos seriales (211) (“rutinas visuales”, según él los denomina). En concreto, mostró que tales procesos son necesarios para decidir si un punto está dentro o fuera de un globo enrollado. El algoritmo de Ullman implicó el calco a lo largo del contorno del globo y, entonces, “pintar” su interior

Por el contrario, cuando se pide a los sujetos que decidan si un punto está encima o debajo de una línea, requieren menos tiempo cuando el punto está lejos. Se tiene evidencia valedera de que el cambio de atención se usa para calcular relaciones espaciales en algunas situaciones pero no en otras. Supongo que tal proceso se cumple mediante el mismo mecanismo que cambia la atención durante la búsqueda de arriba abajo. Por el contrario, el subsistema de codificación de relaciones categóricas, tal como se lo concibe actualmente, es una red que calcula las relaciones categóricas reflexivamente; no implica procesos de control que cambian la ventana de atención a lo largo de un contorno.

Digo por hipótesis que el tipo serial de algoritmo es útil si el estímulo es suficientemente complejo o abarca un ángulo visual suficientemente pequeño como para que sea necesaria una alta resolución espacial para discernir su estructura. Además, en algunas circunstancias, los dos tipos de procesos pueden trabajar juntos. En este caso, una rutina visual lo dirigiría a uno a ubicar las porciones relevantes de una figura y el subsistema de codificación de relaciones espaciales categóricas categorizaría su relación espacial.

(212) El subsistema de diseño espaciotópico se activaba en el hemisferio derecho y el subsistema de codificación de relaciones espaciales categóricas se activaba en el hemisferio izquierdo.

 

Resolución de una paradoja potencial

 

La mayor parte del presente trabajo se basa en la distinción de Ungerleider y Mishkin (1982) entre los sistema dorsal y ventral. Un elemento de evidencia acerca de esta distinción era el hecho de que los monos con lesiones IT no podía aprender a diferenciar formas pero podían codificar relaciones espaciales. Pero este hallazgo es paradójico: ¿cómo podía ese animal codificar propiedades espaciales (y por tanto cumplir las treas de ubicación), pero no era capaz de diferenciar entre estímulos tan diferentes como un conjunto de rayas y un tablero de damas? Las rayas definen menos ubicaciones que los escaques, tienen orientaciones diferentes y son de diferente tamaño. Las propiedades espaciales de las regiones negras tendrían que ser suficientes para conducir a los monos a discriminarlos, aun sin sus lóbulos temporales.

Alan Cowey sugirió que los monos pueden interesarse en dar vuelta a las tapas y, por tanto, sólo atienden a la ubicación del borde de cada tapa que iba a agarrarse. En tal caso, no registrarían la ubicación de las regiones oscuras de los patrones y no podrían utilizar las propiedades espaciales de los patrones para concretar la discriminación.

Otra posible solución al acertijo.

(213) ¿Qué pasa si los monos no codifican las relaciones espaciales categóricas reflexivamente, del modo como los humanos parecen hacerlo? El cerebro humano es mucho mayor que el de los monos (en bruto, 16 veces más grande que el de un macaco). En tal caso, quizá los animales codifican las relaciones espaciales coordinadas para guiar la acción (búsqueda, movimiento de ojos y desplazamiento), pero estas representaciones no están disponibles para la identificación de objetos. Resulta de interés en este contexto especular acerca del papel de las relaciones espaciales categóricas en el lenguaje y viceversa.

 

Ubicación anatómica

 

Los subsistemas de codificación de relaciones espaciales se llevan a cabo probablemente en el lóbulo parietal posterior. Esta hipótesis es consistente con mucha literatura que involucra al lóbulo parietal posterior en el control del movimiento.

Además, he sostenido que el subsistema de codificación de relaciones espaciales coordenadas es característicamente más efectivo en el lóbulo parietal posterior derecho.

También he formulado la hipótesis de que el subsistema de codificación de relaciones espaciales categóricas puede ser más efectivo en el lóbulo parietal posterior izquierdo.

Este enfoque es algo diferente al de Biederman y Cooper (1992) y al de Goodale y Milner (1992), que enfatizan el papel del sistema dorsal en el procesamiento motriz y minimizan su papel en la identificación de objetos. Aunque las relaciones espaciales coordinadas son claramente más importantes para el control motriz, las relaciones espaciales categóricas se usan principalmente en la identificación visual.

 

(214) MEMORIA ASOCIATIVA

 

Pensar la “memoria” como una función diferente es un poco como pensar los dos primeros pies a partir del parachoques delantero (“first 2 feet back from de front bumper”) como parte de un automóvil.  La idea era que la “memoria” puede ser una parte inherente a distintos sistemas perceptuales y de salida y que si uno conoce todo acerca de ellos entonces habrá poco que decir acerca de la facultad de la memoria.

Retrospectivamente, la idea solo era parcialmente correcta. Squire (1987) proporciona una extensa revisión de la neuropsicología de la memoria, lo que me condujo a dos conclusiones, una consistente con mi analogía del auto y la otra no.

Consistente con la analogía: mucho de la memoria es un producto del procesamiento local. En realidad, parece que las representaciones se almacenan a lo largo del proceso que las calcula en primer lugar. Sin embargo, inconsistente con mi anterior concepción es la abrumadora evidencia de que partes especializadas del sistema límbico tienen papeles específicos en la memoria per se. En realidad, el hipocampo parece dedicarse a establecer asociaciones en la memoria.

Los humanos tenemos claramente la capacidad de almacenar asociaciones entre diversos tipos de información. La información de la ubicación debe asociarse con la información acerca de la forma en la memoria, cuando se ha aprendido a desplazarse en un lugar determinado.

Además, “vinculamos” los objetos no con ubicaciones específicas en el campo sino con otros objetos o partes.

(215) Sostendré que una estructura diferente, a la que denomino memoria asociativa, almacena tales asociaciones. Los contenidos de la memoria asociativa son más abstractos que los de los subsistemas de activación de patrones de modalidad específica; la memoria asociativa no sólo almacena asociaciones entre las representaciones perceptuales individuales, sino que también organiza información “conceptual” que no puede derivarse directamente de los sentidos.

(216) Un tipo de representación en la memoria asociativa es especialmente útil para identificar objetos retorcidos. Tales representaciones describen partes de objetos o escenas y sus relaciones espaciales. Este tipo de representación se denomina una descripción estructural y muchos investigadores en visión por computadora han expuesto su utilidad en la identificación de objetos.

Si se pueden reconocer las partes individuales de un objeto y calcular las relaciones espaciales entre ellas, puede construirse una descripción estructural. Esta descripción estructural debe construirse después de cumplido el procesamiento ventral y dorsal, y la descripción estructural del estímulo puede entonces proyectarse sobre las descripciones estructurales almacenadas.

 

Conexiones versus ejemplares

 

Los subsistemas de activación de patrones almacenan representaciones de la específica modalidad visual; no pueden representar información no-visual. Por tanto, debe existir otra estructura de memoria para almacenar representaciones no-visuales de las propiedades de los objetos. Sin embargo, esta estructura debe recibir información visual: la correcta idea de identificación (como opuesta a reconocimiento) requiere que se acceda a la información no-visual (incluyendo el nombre de un objeto, categorías, etc.) mediante una entrada visual. Aún más, esta estructura debe recibir información de otras modalidades sensoriales: se pueden identificar objetos cuando se los ha oído, tocado o, en algunos casos, olido. Una vez que se identifica un objeto, el mismo rango de información asociada se hace disponibles; puede decirse su nombre, contar hechos acerca de sus orígenes, etc. Tales observaciones me condujeron a proponer un subsistema, en una etapa relativamente tardía del procesamiento, que recibe información de múltiples modalidades sensoriales y almacena asociaciones entre hechos acerca de objetos.

Razonando acerca de la naturaleza de un sistema que asocie diversas clases de información en la memoria, comencé a considerar dos amplias clases de mecanismos. Por un lado, los punteros puede organizar ejemplares (tokens) de representaciones almacenados en una estructura diferente. Un ejemplar está por un tipo determinado como la imagen de una postal está por la Mona Lisa. (217) Los ejemplares que representan información perceptual tienen “significado” solo refiriéndose (referring back) al tipo.

Por otra parte, no pueden ser un conjunto de ejemplares que residan en una estructura diferente de la memoria asociativa; las asociaciones pueden establecerse directamente entre otros tipos de representaciones, sin estructura de ejemplares intermedia. Mis argumentos contra la segunda alternativa son los siguientes.

Primero, este enfoque no proporciona un medio para especificar tipos diferentes de relaciones entre la información almacenada. No es claro cómo vínculos directos simples podrían especificar que un gato es de una forma determinada, tiene un determinado juguete, hace determinado ruido y le gusta determinada comida. La alternativa es tener vínculos indirectos entre las representaciones de las propiedades especificadas, los que crean conexiones entre las representaciones intervinientes de las relaciones. La solución es tener ejemplares de las relaciones, con uno específico para cada asociación.

Segundo, las conexiones directas plantean problemas para la representación de la información abstracta. Existen muchos niveles de abstracción entre las representaciones de entrada o salida y las representaciones de los conceptos abstractos. Si un sistema tiene la habilidad para construir conceptos abstractos, presumiblemente tiene la habilidad para establecer asociaciones utilizando estructuras de ejemplares.

Tercero, como puntualizan Mishkin & Appenzaller (1987) a veces deseamos pensar en el pan sin asociarlo con la manteca. Es difícil regular el patrón de asociaciones si existen conexiones directas entre representaciones distintas, al menos porque uno no sabe que hay que asociar (218) hasta que está activado. El problema consiste en que hay muy poca estructura en las asociaciones de un sistema de conexión directa; es difícil separar asociaciones de diferentes clases de modo que sólo se procesen las relevantes.

En resumen, estos argumentos sugieren que la memoria asociativa se entiende mejor como una estructura diferente que contiene ejemplares; estos ejemplares están organizados como para especificar diversos tipos de asociaciones. Entre otras cosas, supongo que la memoria asociativa contiene descripciones acerca de cómo están dispuestas las partes de los objetos.

 

El problema del vínculo (The Binding Problem)

 

Yo afirmé que un paso crítico en la identificación de objetos retorcidos consiste en la asociación de las representaciones de las partes y las relaciones espaciales categóricas.

El supuesto de que las propiedades del objeto (tales como las formas de las partes) y las propiedades espaciales (tales como las relaciones espaciales categóricas) están codificadas en sistemas separados conduce a un problema: ¿cómo se conectan las representaciones adecuadas desde cada sistema? Este se denomina el problema del vínculo.

(219) Una posible solución a este problema ha sido propuesto por Gray & Singer (1989). Ellos grabaron las respuestas desde neuronas en diferentes ubicaciones en la corteza visual del gato y encontraron que las respuestas al mismo estímulo oscilaban en fase juntas (alrededor de 40 Hz). Parece posible que tales oscilaciones puedan “clavar” (“tag”) representaciones asociadas en regiones diferentes del cerebro; las entradas de la memoria asociativa podrían asociarse si los patrones de la actividad neuronal oscilaran en el mismo sentido.

 

El procesamiento en la memoria asociativa

 

Durante la identificación de objetos, el objetivo del procesamiento en la memoria asociativa es seleccionar la representación almacenada que corresponde al estímulo; la representación que tiene propiedades más semejantes a las del estímulo resulta la más activada y si la representación se activa con fuerza suficiente, el objeto queda identificado. Cada objeto, parte y propiedad de objeto corresponde a un código de patrón que los subsistemas de activación de patrones producen; este código es una clase de nombre, que indica qué patrón ha sido reconocido así como la calidad de la proyección. De modo semejante, cada tipo de relación espacial categórica corresponde a un código espacial que se produce por los subsistema de codificación de relaciones espaciales categóricas. (La salida del subsistema de codificación de relaciones espaciales coordenadas es un conjunto de coordenadas basadas en la motricidad (motor-based), no una proposición. Por hipótesis, considero que las propiedades espaciales y del objeto están equiparadas en (220) paralelo con las asociadas con las representaciones almacenadas de los objetos. Un objeto sólo se identificará cuando exista una buena equiparación entre las propiedades de entrada y las propiedades asociadas con el objeto en la memoria.

Sin embargo, esta clase de consistencia con la entrada no es suficiente: algunos aspectos de la entrada deben ser también característicos respecto un determinado objeto; debe poderse rechazar la hipótesis de que se está viendo otro objeto. La representación de cada objeto puede pensarse como un nodo en una red y estos nodos se inhiben mutuamente. Un conjunto de propiedades se asocia con cada nodo y un nodo se hace más activo conforme más de sus propiedades asociadas se corresponden con las de la entrada. Y cuando más activo es un nodo más inhibe a los otros nodos. Esta clase de disposición puede producir un mecanismo de ventaja total (the winner-take-all), según el cual sólo un nodo a l vez puede activarse plenamente. Obsérvese que no quiero decir que “nodos” se corresponde necesariamente con células individuales; más bien, poblaciones de células pueden servir para representar un objeto y sus propiedades y esta población puede inhibir poblaciones de células que representan otros objetos.

Dependiendo de a dónde se mira, se codificarán diferentes series de partes y características; en realidad, si el objeto está retorcido de modo extraño, algunas partes y características pueden incluso no ser visibles. Es más, algunos miembros de una clase de objetos tienen partes y características adicionales opcionales o han perdido partes y características. Por ejemplo, las sillas pueden o no tener brazos y los perros pueden o no tener cola. Wittgenstein (1953) señala que los miembros de una categoría con frecuencia no comparten un conjunto de rasgos necesarios y suficientes. Además, los miembros se relacionan por una especie de semejanza de familia, con algunos miembros compartiendo algunos rasgos y otros miembros compartiendo otros. Por tanto, no puede identificarse un objeto si proyecta una forma nueva simplemente definiendo un aceptable rango de variaciones respecto de una forma estándar y tratando como equivalentes todas las formas dentro de ese rango.

Una posible solución a estos problemas es exigir que sólo se codifique un subconjunto de las partes, las características y sus relaciones espaciales, respecto de un objeto y permitir que distintos subconjuntos se usen en diferentes instancias. En este caso el sistema trataría cada propiedad de entrada como evidencia y un objeto se identificaría cuando se hubiera acumulado suficiente evidencia, sin tomar en cuenta qué piezas de evidencia se hayan encontrado. El simple recuento de la cantidad o porcentaje de propiedades no sería satisfactorio: distintas propiedades son más o menos decisivas (diagnostic). Por ejemplo, una banqueta también tiene un asiento y patas; así, para identificar una silla, como opuesta a una banqueta, es mucho más importante codificar un asiento y un respaldo que codificar un asiento y patas.

Estos razonamientos sugieren que un “peso diferencial” se asigna a cada propiedad almacenada. Cada vez que una propiedad de entrada se proyecta sobre una propiedad almacenada, el (221) peso asociado con esta propiedad se añade al ruteador (hopper); sólo puede identificarse un objeto cuando se ha acumulado suficiente peso como para exceder un umbral, sin considerar qué propiedades aportan el peso. Este sistema permite muy diferentes combinaciones de propiedades para implicar un objeto dado.

Por definición, propiedades diferenciales son aquellas que distinguen un objeto de otros objetos semejantes. Así, las propiedades diferenciales se deberían usar con frecuencia desigualmente para identificar un objeto y por tanto sus pesos se harían mayores.

Finalmente, considérese el hecho de que un granjero reúna a sus vacas en la oscuridad, un sombra que pasa puede identificarse como una vaca. Esta habilidad requiere que se alteren los umbrales por el contexto y que ciertas clases de información se traten como decisivas (criterial) en contextos particulares; según la tarea, alguna información en la memoria asociativa resultará relevante y otra no. Se necesitará menos información para identificar un objeto muy retorcido, como puede serlo un gato durmiendo, si se espera encontrar ese objeto en ese contexto.

El contexto también afectará clases específicas de representaciones, y no representaciones individuales específicas. Por tanto, debe existir un mecanismo mediante el cual la memoria asociativa pueda permitir que se activen sólo determinados tipos de representaciones (o, además, permanecer activadas; otros tipos pueden haberse activado inicialmente pero entonces estar inhibidas). Para inhibir determinada clase de representaciones, debe existir algún modo de indexar esas representaciones; este índice puede ser explícito (p.e.: una propiedad que indique el nivel de especificidad), implícito (p.e.: implicado por la cantidad de superordinados) o ambos.

 

Nivel de jerarquía

 

Los objetos pueden nombrarse a varios niveles de jerarquía. ¿Se nombra a una fruta como una manzana Deliciosa, una manzana o simplemente una fruta? Esta teoría nos conduce a esperar que los objetos se identifiquen típicamente a determinado nivel de jerarquía.

(222) Rosch et al. (1976) mostraron que las imágenes se designan habitualmente a un nivel intermedio, que llaman el nivel básico. Lo caracterizan de diversos modos. El más pertinente para este propósito consiste en que el nivel de jerarquía más general es aquel al cual los objetos todavía tienen formas semejantes. O sea, si se dibuja el plano de solapamiento de las formas de los miembros de la categoría definida a cada nivel de jerarquía, se encontraría un codo en la curva; por ejemplo, las manzanas Deliciosas se solapan muy arriba con las restantes, como ocurre con las manzanas en general, pero no con fruta (que incluye bananas, sandías, kiwis, y otras). El codo aparece en manzana, que es el nivel básico.

La identificación de objetos a nivel básico es una buena idea al menos porque activa la mayor cantidad de propiedades que casi con seguridad se aplican al estímulo. Sin embargo, el nivel básico tiene esta virtud sólo si el estímulo es típico de la categoría. Por ejemplo, si uno mira un pingüino, categorizarlo como un pájaro no ayuda mucho [...]. En estos casos, la forma del pájaro es suficientemente diferente respecto a los miembros típicos de una categoría que sería posible tener una representación diferente en el subsistema de activación de patrones de categoría. En realidad, tales “excéntricos” (“outliers”) con frecuencia tienen tamaños y orientaciones inusuales (un pingüino es grande para un pájaro y camina en una orientación inusual para un pájaro) y así el sistema dorsal también provee la información diferencial.

Si ello es así, entonces la gente nombrará los objetos típicos a nivel básico, pero con frecuencia nombrarán a los atípicos a un nivel subordinado al nivel básico; respecto a los objetos atípicos, no se puede ir tan alto en la jerarquía y todavía aplicar todas las propiedades al objeto. Y esto es exactamente lo que encontraron Jolicoeur, Gluck & Kosslyn (1984). Por ejemplo, la gente con frecuencia nombra a una avestruz como avestruz, no pájaro, pero nombra a un gorrión como pájaro. Llamamos al nivel de la jerarquía al que una representación proporciona el máximum de propiedades posibles, el nivel de entrada.

Además, pueden proporcionarse nombres propios a algunos objetos familiares. O sea, puede llamarse al perro que vive en la puerta de al lado Fido, como opuesto a cocker spaniel, perro, mamífero, y otros. Está claro que deben existir representaciones diferentes en la memoria asociativa para las categorías (tales como pájaro o pingüino) y los ejemplares (tales como el propio pájaro); la información que se aplica a un específico ejemplar no requiere aplicarse a todos los objetos en esa categoría. Estas representaciones se activan por códigos de patrones a partir del subsistema de activación de patrones de ejemplares. Además, hay una clase especial de ejemplares que siempre conservan exactamente la misma forma, tales como las estatuas y las pinturas; no sólo el subsistema de activación de patrones de ejemplares juega un papel clave en la identificación de tales objetos, sino que el subsistema de codificación de relaciones espaciales de coordenadas puede también ayudar a identificar tales objetos si sus partes o características están siempre en exactamente la misma ubicación.

 

(223) Ubicación anatómica

 

A primera vista, dado que el hipocampo ha sido identificado como fundamental para establecer nuevas asociaciones en la memoria, parece ser un buen candidato para ejecutar la memoria asociativa. Es improbable que el hipocampo lleve a cabo la propia estructura de la memoria asociativa; las asociaciones a largo plazo se almacenan en otra parte.

Hay razón para sospechar que la memoria asociativa se atiene al tejido específico en el lóbulo temporal superior, posterior y en el área de conexión témporo-parietal-occipital.

 

(224)(225) SUBSISTEMAS USADOS EN LA PRUEBA DE LA HIPÓTESIS DE ALTO EN BAJO (TOP-DOWN)

 

Sólo dos clases de información pueden usarse para dirigir la atención a una nueva ubicación. Primero, las propiedades de la entrada del estímulo pueden dirigir la atención hacia una ubicación específica: un movimiento repentino o un cambio en la intensidad es especialmente probable que tenga este efecto. Segundo, el conocimiento, la creencia y la expectativa puede dirigir la propia atención hacia una ubicación específica. No somos receptáculos pasivos de la información durante la visión; es característico que no esperemos simplemente más entrada para decidir qué estamos viendo. Más bien, es conocido desde hace tiempo que los humanos formulamos hipótesis para guiar la recolección de información adicional.

Tales influencias “top-down” en la atención son inmediatamente obvias cuando se observan los patrones de movimientos de ojo durante la identificación de objetos. Es característico que la gente (226) examine las partes de alta información de las imágenes, trasladándose sistemáticamente entre ellas; por ejemplo, los ojos, la nariz y la boca son los objetivos de la gran mayoría de las fijaciones visuales cuando los individuos examinan la imagen de un rostro.

Dos clases de estrategias de control top-down aparecen para subrayar los patrones de movimientos de ojos que ocurren cuando la gente no puede identificar un objeto a primera vista. Primero, en algunos casos, el control atencional top-down está dirigido por una hipótesis específica, como la de que se está viendo un gato y por tanto se buscarán los bigotes al frente de la cara. Segundo, en algunos casos, los sujetos no aparecen comprobando un hipótesis específica, sino que se entregan a una estrategia de búsqueda sistemática (Luria, 1980). Si la entrada es débilmente consistente con diversos objetos posibles, una buena estrategia es barrer el objeto sistemáticamente buscando más información.

Si una representación resulta más activada que otras mientras el objeto y las propiedades espaciales entran en la memoria asociativa, est representación puede tratarse como un hipótesis a probar.

Aunque el subsistema de la memoria asociativa, en esencia, formula una hipótesis y proporciona las propiedades diferenciales del objeto hipotetizado, esto es todo lo que hace. Otros sistemas deben usar esta información para dirigir la atención al lugar donde una propiedad específica estaría si la hipótesis es correcta. En lo que sigue me centraré en el tema de cómo se prueba una hipótesis acerca de un objeto específico.

 

Subsistema de búsqueda de las propiedades coordenadas

 

Una hipótesis perceptual está basada necesariamente en el propio conocimiento acerca del posible rango de objetos que pueden verse; se usa información parcial para guiar la búsqueda, esforzándose por descubrir si las propiedades del (227) objeto hipotético están en realidad presentes.

El protomodelo que desarrollé especifica un subsistema de búsqueda de información que incorpora representaciones en la memoria asociativa. En lo que sigue articularé este subsistema, delineando tres subsistemas diferentes. Estos subsistemas aparentemente se usan en diversas funciones, incluidas el lenguaje, el razonamiento y el desplazamiento y así no son componentes propios de un específico componente top-down de búsqueda; no existe un consagrado “sistema de prueba de hipótesis top-down” como tal.

Recuérdese que cuando las salidas de los sistemas ventral y dorsal (códigos de patrones, códigos espaciales y coordenadas) entran en la memoria asociativa, las representaciones de algunos objetos se satisfacen mejor que otras y las propiedades almacenadas, asociadas con la representación más fuertemente activada, se activan. Además, las propiedades más identificadoras se activan    con mayor fuerza que las propiedades menos identificadoras; por “propiedades identificadoras” (distinctive properties) entiendo aquellas que sirven para diferenciar entre objetos semejantes.

Algunas propiedades identificadoras no se definen sólo por la forma. El tamaño y la ubicación es lo que las hace identificadoras. La prueba de la hipótesis con frecuencia puede implicar una combinación de propiedades del objeto y espaciales.

Planteé que las propiedades espaciales se almacenan de dos modos, utilizando representaciones de relaciones categóricas o coordenadas. Si la ubicación se almacena según coordenadas basadas en la motricidad, sólo se necesita una transformación para proyectar la entrada de las representaciones de ubicaciones (incorporadas a la memoria asociativa) a las instrucciones de salida (para el mecanismo de cambio de atención). Esta transformación convierte las coordenadas espaciales en instrucciones acerca de hasta dónde mover el cuerpo, la cabeza, los ojos, y/o la ventana de atención. Las representaciones coordenadas difieren cuantitativamente; especifican la distancia a lo larga de cada dos o tres dimensiones. Por el contrario, las representaciones categóricas se presentan en una variedad de franjas y cada una es (228) cualitativamente diferente: por ejemplo, en (on) la izquierdo de (left of), conectado a (connected to) y arriba (above) no especifican la distancia según dimensiones cuantitativas (no caracterizan los valores según escalas “protésicas” [de adición o añadido]). Si la ubicación se almacena usando una relación espacial categórica, la representación debe convertirse según un rango de coordenadas. Una representación categórica sola no especifica dónde trasladar la atención para encontrar la propiedad en la instancia específica que está viéndose; la fuerza de las relaciones categóricas es que consideran un rango de posiciones como equivalentes. Porque los diversos tipos de relaciones espaciales almacenadas constituyen entradas diferentes y los resultados de entrarlas constituyen salidas diferentes, existen diferentes proyecciones entrada/salida. Además, la proyección de coordenadas debe preservar la verdadera calidad de la información que se descarta en la proyección categórica y las proyecciones categóricas pueden ser sensibles a las diferencias que son irrelevantes en las proyecciones de coordenadas. Estas consideraciones me condujeron a la hipótesis de que existen dos subsistemas de búsqueda de propiedades identificadoras.

El subsistema de búsqueda de propiedades coordenadas entra partes y características identificadoras que se asocian con las representaciones de las relaciones espaciales coordenadas.

Recuérdese que las representaciones coordenadas están basadas en la motricidad; pueden usarse para dirigir los ojos y las piernas hacia un específico lugar en el espacio.

 

Ubicación anatómica. El lóbulo frontal juega un papel fundamental en la generación y comprobación de hipótesis, en especial partes de la (229) corteza prefrontal dorsolateral. (230) He asumido que las representaciones de las relaciones espaciales coordenadas se almacenan y que es posible que se almacenen más efectivamente en el hemisferio derecho.

 

Subsistema de búsqueda de propiedades categóricas

 

También sostengo la hipótesis de que existe un subsistema de búsqueda de propiedades categóricas diferente. He supuesto que la atención puede dirigirse a una única ubicación en cualquier momento. Si el subsistema de cambio de atención recibe dos entradas diferentes, la peor solución sería promediarlas; se estaría buscando algo entre dos ubicaciones potencialmente útiles. Más bien, debe seleccionarse una hipótesis por vez para probarla. He supuesto que la representación del objeto más consistente con la entrada en la más probablemente activada.

Se pueden pensar los subsistemas de búsqueda de propiedades como detectores que operan en paralelo y se inhiben mutuamente uno al otro en proporción a sus grados de activación.

 

(231) Ubicación anatómica. Formulo la hipótesis de que el subsistema de búsqueda de propiedades categóricas se realiza en la corteza prefrontal dorsolateral. El hecho de que estas representaciones se almacenan y son accesibles en el hemisferio izquierdo.

 

Subsistema de conversión categórico – coordenado

 

Las relaciones espaciales categóricas esbozan un rango de posiciones relativas, pero una propiedad tiene que ubicarse en una ubicación determinada en una imagen; si las representaciones de las relaciones espaciales categóricas tienen que guiar la búsqueda top-down, deben guiarlo a uno a mirar hacia una ubicación determinada para una propiedad especificada. Por lo tanto un subsistema debe convertir las relaciones categóricas en coordenadas. Este subsistema también debe ensañar a codificar nuevas representaciones de las relaciones espaciales categóricas. Si el subsistema de codificación de relaciones espaciales categóricas desarrolla una nueva categoría, estas representaciones pueden almacenarse y subsecuentemente accederse a ellas; entonces, si se desarrollan nuevas categorías, otro subsistema debe modificarse para interpretarlas como un prerrequisito para dirigir la atención a la ubicación especificada.

Estas tareas: adquirir conversiones de categorías y convertir categorías en coordenadas, son muy distintas de la tarea de buscar una representación en la memoria asociativa. El subsistema de búsqueda de propiedades categóricas toma como entrada las representaciones en la memoria asociativa y envía estas representaciones a otras partes del sistema. Dado que esta salida puede usarse de varios modos diferentes (p.e.: el lenguaje y el razonamiento), el subsistema de búsqueda no lo transforma en función de algún objetivo particular. Utilizando mi criterio habitual de la interferencia probable en una única red, he llegado a la hipótesis de un subsistema de conversión categórico-coordenado para convertir las representaciones de relaciones espaciales categóricas en un rango de coordenadas.

 

(232)(233) Ubicación anatómica. No tengo teoría acerca de dónde trabaja en subsistema de conversión categórico-coordenado. Si suponemos que los subsistemas tiende a estar cerca de los subsistema que les envían entradas, entonces el lóbulo frontal o parietal sería el apropiado. Sin embargo, lo importante es la distancia funcional, no la proximidad efectivamente física.

 

Cambio de atención

 

 

 



 


 

 

(247) Cap. 8

Identificación de objetos: cerebros normales y dañados

 

EL SISTEMA DE TRABAJO: UN RESUMEN

 

Piénsese en cómo el sistema identifica un zorro que está en parte detrás una cerca, de modo que quedan ocultas sus patas traseras y su cola. Kosslyn et al. (1990) usaron este estímulo para probar un modelo de computación de una versión de la teoría y por tanto puedo describir tal proceso con la mayor precisión. Para los actuales fines, imagínese que este zorro en particular está mirando hacia la izquierda. Es un ejemplo interesante porque un zorro luce muy parecido a un perro y su parte oculta impide al sistema identificarlo inmediatamente.

La visión de alto nivel recibe información desde los mecanismos de bajo nivel que registran la luminosidad, color, textura, movimiento y profundidad. Esta información acerca del zorro y la cerca se organiza en unidades perceptuales en la memoria visual intermedia. La presencia de un nuevo patrón lleva al subsistema de cambio de atención basado en el estímulo a cambiar la ventana de atención  hacia una parte adecuada de la memoria visual intermedia; el ojo, cabeza y cuerpo también cambian lo necesario para llevar la ventana de atención a (248) ceñir el patrón. La ventana de atención inhibe la información de otras áreas de adentrarse en el sistema.

Como una regla, la ventana de atención siempre comienza por rodear una región de la memoria visual intermedia que tiene propiedades homogéneas (tales como los mismos valores de profundidad de color, etc.). No existe un conjunto de claves que determine exclusivamente que una región contiene un objeto, por oposición a diversos objetos superpuestos o una parte. Sin embargo, heurísticamente, es probable que un objeto corresponda a una región en la que la información local tiene distancia, color y textura semejantes. Es útil comenzar por la forma general de un objeto y no sólo porque en ocasiones se corresponderá con un patrón almacenado, sino también porque establece el estado de cosas, las coordenadas necesarias para calcular las posiciones de las partes y las características distintivas. En este caso, permítaseme decir que la región seleccionada incluye el zorro (que es rojizo y peludo a diferencia de la cerca) y parte de la cerca. Los contenidos de la ventana de atención se envían al sistema ventral y al sistema dorsal para posteriores procesamientos.

El sistema ventral codifica las propiedades del objeto y propongo que esto incluye cuatro subsistemas de procesamiento. El subsistema de preprocesamiento extrae las propiedades no accidentales y de señal a partir de la imagen de entrada. Las propiedades no accidentales son los bordes que son aproximadamente paralelos, colineales, en intersección, etc.; las propiedades no accidentales es poco probable que surjan por casualidad. Las propiedades de señal incluyen regiones coloreadas y texturadas que identifican al objeto. Para el zorro, los bordes de las patas son aproximadamente paralelos, los bordes que definen a las orejas se intersectan y así lo demás.

Al mismo tiempo que opera el subsistema de preprocesamiento, el subsistema de codificación de relaciones de movimiento extrae patrones de movimiento. El movimiento de un zorro es diferente del de muchos otros animales, lo que servirá para estrechar el margen de alternativas. (Este subsistema no estaba aplicado en nuestro modelo, así que supongamos que el zorro estaba enteramente quiero.)

La imagen y las propiedades extraídas son enviadas al subsistema de activación de patrones. El proceso de comparar la entrada con las representaciones almacenadas (o sea, las "imágenes comprimidas") respeta la restricción de la consistencia del punto de vista. Esta restricción requiere no sólo que se correspondan las propiedades individuales sino también que sus posiciones relativas sean consistentes con el hecho de ver un objeto desde un único punto de vista. Si esta correspondencia es muy buena y si es mucho mejor para un patrón determinado que para cualquier otro, el estímulo queda reconocido. En este ejemplo, la imagen de entrada de un zorro no se corresponde suficientemente bien con ningún patrón almacenado en el subsistema de activación de ejemplares de patrón (es un zorro desconocido), pero las representaciones encajan, en un grado moderado, en el subsistema de activación de las categorías de patrón. Sin embargo, se encuadra en los patrones correspondientes a un perro y a un zorro de modo prácticamente semejante, con un encaje ligeramente mejor para el zorro (por el color identificador). Dado que la representación de la imagen comprimida del patrón almacenado del zorro se activa más que los otros, proporciona a la memoria visual intermedia una retroalimentación imaginaria para completar la información de entrada. Este proceso genera un patrón en la memoria visual intermedia que es equivalente a la representación de la imagen mental. La función de proyección se altera de modo que se rota y traslada la imagen  (por otro subsistema que se discutirá en el capítulo 11) hasta que se corresponde con la imagen de entrada (249) lo mejor posible. La correspondencia es moderadamente alta y, así, el subsistema de activación de las categorías de patrón envía un código de patrón a la memoria asociativa; este código es un símbolo para el patrón de zorro. También envía una indicación de que la correspondencia era sólo débilmente buena.

Al mismo tiempo que el sistema ventral codifica las propiedades del objeto, el sistema dorsal codifica una representación de la situación, tamaño y orientación de cada una de las unidades perceptuales acotadas por la ventana de atención. Este también codifica esas mismas propiedades de otros objetos y analiza las partes y características en la memoria visual intermedia, permitiendo modificar la atención hacia esas situaciones si fuera necesario; pero las representaciones del material fuera del alcance de la ventana de atención son provisionales (preattentive); no se las dirige hacia más abajo. En el ejemplo, dado que la ventana de atención rodea al zorro entero, su resolución no es muy alta (recuérdese que existe un intercambio enfoque-resolución: cuanto mayor es el ángulo visual  subtendido, menor resolución puede alcanzarse). Así, el subsistema de proyección espaciotópico calcula la situación, tamaño y orientación del objeto como totalidad. Esta información se envía al sistema ventral para ayudar a integrar la entrada en el tiempo y para proporcionar especificación de alcance tridimensional.  Al mismo tiempo, el subsistema de proyección espaciotópico envía información al subsistema de codificación de relaciones espaciales categóricas y al subsistema de codificación de relaciones espaciales coordenadas.

El subsistema de codificación de relaciones espaciales categóricas codifica las relaciones espaciales categóricas y categoriza tamaño y orientación. Para el zorro, el estímulo (que corresponde a la forma general) está frente al observador, es de tamaño mediano y se orienta de modo que su eje mayor es horizontal. El subsistema de codificación de relaciones espaciales coordenadas codifica la información métrica acerca de la situación, tamaño y orientación. En este caso, la situación, tamaño y orientación de la forma global se especifica según coordenadas que pueden usarse para programar los ojos para enfocarlos en una situación determinada,  o las piernas para dirigirse hacia esa situación. El resultado de ambos subsistema de codificación de relaciones espaciales se envía a la memoria asociativa.

La memoria asociativa recibe la información tanto del sistema ventral como del dorsal. La entrada desde los subsistemas de activación de patrones puede ser suficiente para la identificación del objeto, si se reconoce al estímulo con confianza (la correspondencia con una forma almacenada es muy buena), pero en este ejemplo no lo es. Así, aunque las propiedades espaciales codificadas desde el sistema dorsal son también consistentes con las de un zorro y, por ello, esta representación se activa más de lo que sería a partir de la información proveniente exclusivamente del sistema ventral, sólo puede hacerse una identificación tentativa; la representación de un zorro en la memoria asociativa no se activa por sobre el umbral. Si el contexto hubiera sido diferente (por ejemplo, si se atravesara el paisaje inglés a caballo, buscando un zorro) esta cantidad de activación hubiera sido suficiente. Pero dado que no existen expectativas especiales, el umbral se encuentra más arriba y el zorro sólo alcanza una identificación tentativa.

Esta identificación tentativa sirve como una hipótesis, que se comprueba buscando propiedades más identificatorias (partes y características, tales como una mancha configurada de modo especial) asociadas con la representación de los (250) objetos candidatos. El subsistema de búsqueda de propiedades categóricas y el subsistema de búsqueda de propiedades coordenadas intentan acceder a representaciones de las propiedades del objeto y cualquiera que se encuentre, la representación más fuerte (más identificatoria) inhibe a la otra. En este caso, la cabeza es la parte más identificatoria de un zorro y su ubicación se representa utilizando la relación categórica "al frente del cuerpo". La relación espacial categórica y la parte son más fuertes porque se las utiliza con mayor frecuencia para distinguir al zorro de objetos semejantes; la relación categórica es general a través de todos los zorros, mientras que una relación coordenada sería específica respecto de una pintura o estatua determinada de un zorro. Este es un zorro vivo en una situación poco habitual; esta posición particular no fue observada con anterioridad y no está almacenada ni en el subsistema de activación de patrones (que hubiera registrado una alta correspondencia si así fuera) ni en la memoria asociativa (que hubiera almacenado las coordenadas de las partes). De modo semejante, el tamaño y la orientación de la cabeza están disponibles.

La especificación de la ubicación categórica depende de la envoltura general de la forma y, por tanto, el sistema debe calcular dónde se encuentra el "frente" del objeto en la imagen de entrada. Este cálculo se realiza por el subsistema de conversión categórico-coordenada, el cual accede a la información acerca del aguzamiento de la envoltura de la forma, lo cual es un apoyo heurístico para situar el frente. El subsistema de conversión categórico-coordenada también usa información coordenada acerca del tamaño y la distancia de la forma para calcular las coordenadas que se dirigen a los subsistemas de cambio de atención.

El subsistema de cambio de atención desprende la atención de su previo punto focal, cambia el cuerpo, cabeza, ojos y/o la ventana de atención de modo que la ventana de atención está centrada sobre la imagen de entrada de la porción del objeto especificada.  Además, se reduce el campo de la ventana de atención, incrementando su nivel de resolución; el subsistema de conversión categórico-coordenado utiliza la representación del tamaño categorial junto con la información acerca del tamaño y la distancia del objeto para graduar la ventana de atención adecuadamente. En este ejemplo, la ventana de atención está desplazada hacia la parte izquierda de la envoltura general de la forma y su alcance se reduce a rodear una parte mediana-pequeña vista a la distancia apropiada.

Al mismo tiempo que la ventana de atención se desplaza y regradua, al código patrón que representa la identidad de la parte o característica buscada se lo envía a los subsistemas de activación de patrones. Esta información privilegia la representación buscada (una memoria visual de la forma de una cabeza de zorro prototípica), haciéndola más fácil de confrontar y la representación privilegiada inhibe las representaciones de las otras formas.

Entonces el sistema se ocupa de un segundo ciclo, codificando de nuevo al objeto y a las propiedades espaciales del estímulo abarcado por la ventana de atención. Las nuevas entradas ventral y dorsal se procesan como se describió antes, lo cual a su vez proporciona nuevas informaciones a la memoria asociativa. Si ambos subsistemas de activación de patrones tienen éxito en emparejar la parte y si el tamaño, orientación y posición de la parte especificada por los subsistemas dorsales son apropiados, entonces la información para la memoria asociativa es consistente con las propiedades del objeto (251) candidato. En este caso, se han cumplido todas aquellas exigencias y la representación del zorro en la memoria asociativa se activa por sobre el umbral.

Sin embargo, si alguna otra parte o característica se codifica después de que la ventana de atención ha sido desplazada y regraduada, ello será consistente o inconsistente con la del zorro.  Si no es consiste con un zorro, pero es consistente con algún otro objeto, otra representación en la memoria asociativa puede hacerse más activa que la representación del zorro. En este caso, la representación del zorro se inhibiría y se evaluaría una nueva hipótesis. Este ciclo se repite cuantas veces sea necesario hasta que se haya identificado al objeto.

 

 

COMPROBACIÓN DE PREDICCIONES

 

[...]

 

(258) HABILIDADES VISUALES BÁSICAS

 

Muchos lectores habrán observado que no identificaban los objetos con la misma facilidad en las diversas condiciones tratadas en los capítulos precedentes. Un estimulo es fácil o difícil de identificar sólo en virtud de las propiedades del propio sistema de procesamiento. Las variaciones en el tiempo de identificación reflejan la naturaleza del procesamiento subyacente y toda teoría viable acerca de la identificación de objetos debe explicarlo. Sin embargo, un recuento de los tiempo de respuesta relativos es inútil si la teoría no da cuenta también de nuestras habilidades básicas.

Así, diferiré hasta la próxima sección el dar cuenta de los tiempos de identificación y comienzo dando cuenta de las cinco clases de habilidades visuales que se esbozaron en el capítulo 3. Sólo resumiré brevemente las explicaciones dadas anteriormente y focalizaré las explicaciones omitidas o sólo aludidas al pasar. Para eliminar redundancias, sólo destacaré aquellos aspectos del sistema que juegan papeles claves en cada habilidad específica.

 

Distancias y posiciones diferentes (ángulos visuales)

 

La habilidad para identificar objetos cuando se los ve desde puntos de vista diferentes se divide a su vez en dos capacidades.

Identificación de objetos cuando sus imágenes de entrada se apoyan en ángulos visuales diferentes  

(259) Identificación de objetos cuando sus imágenes de entrada caen en lugares diferentes de la retina

 

Variaciones de forma

 

Los problemas que implican el reconocimiento de formas nuevas constituyen un desafío mayor. Desarrollaré cuatro de tales problemas.

Identificación de objetos cuando se los ve desde puntos de mira (Vantage Points) diferentes 

Identificación de objetos cuando varían las formas de sus partes 

(260) Identificación de objetos cuando varían las relaciones espaciales entre las partes 

Identificación de objetos que contienen o no contienen partes o características opcionales 

 

Entrada empobrecida

 

Un desafío importante para cualquier teoría de la identificación visual de objetos es explicar cómo podemos identificar los objetos cuando la información de entrada está degradada. La entrada degrada surge de diversos modos.

(261) Identificación de objetos que están parcialmente ocluidos 

Identificación de objetos cuando la imagen está degradada 

Identificación de objetos que están muy cercanos 

 

(262) Instancias específicas

 

En la mayoría de los casos, un sistema que sobre-generaliza es tan deficiente como el que generaliza demasiado poco. Es claro que podemos identificar objetos particulares y relaciones espaciales, cubriendo la generalización cuando resulte apropiado.

Identificación de objetos específicos 

Identificación de relaciones espaciales específicas 

 

Objetos y escenas

 

Con frecuencia vemos más de un objeto a la vez y podemos identificar más de uno de una única mirada.

(263) Identificación de múltiples objetos en una única mirada (in a Single Fixation)  ... pero lo hace uno cada vez.

Identificación de objetos múltiples “automáticamente”  El sistema visual no sólo puede identificar más de un objeto en una fijación, sino que típicamente parece hacerlo “automáticamente”; si esto no fuera cierto, el contexto no afectaría la identificación.

(264) En resumen, resulta claro que la teoría puede aplicarse a cada una de nuestras habilidades visuales básicas. Sin embargo, este breve resumen puede parecer dócil (may seem facile)por (al menos) dos razones. Primero, los informes no son precisos; no he especificado los detalles de cómo trabaja cada subsistema.

Segundo, la teoría es compleja y hay varios modos en que se puede chapucerear una explicación para un fenómeno. Por ello, es importante que mis colegas y yo hayamos aplicado la mayoría de la teoría como un modelo de simulación de computadora y que hayamos probado el modelo en la mayoría de las situaciones aquí resumidas.

 

LOS TIEMPOS DE NOMBRAR

 

Es interesante ahora llevar más allá la teoría y ver en qué medida puede dar cuenta de los efectos relativamente sutiles de una multitud de variables que producen diferencias en el tiempo para nombrar objetos dibujados. Primero resumo los hallazgos y después proporciono una explicación basada en la teoría. Parece haber tres clases de hallazgos que, en principio, reflejan los procesos que codifican el estímulo, asignan un nombre y permiten al nombre producir una respuesta.

 

(265) Codificación del estímulo

 

Los hallazgos siguientes recaen, en principio, sobre los procesos que codifican un objeto y cómo esos resultados conducen a focalizar las propiedades del sistema ventral.

 

Contornos degradados  Los sujetos requieren más tiempo para nombrar los dibujos cuando han sido removidas partes de sus contornos. Particularmente, cuando se han eliminado los vértices (Biederman & Blickle, 1985).

 

 

 

(285) Cap. 9

GENERACIÓN Y MANTENIMIENTO DE LAS IMÁGENES VISUALES

 

La imaginería juega un papel vital en la percepción; los mecanismos de la percepción visual de alto nivel se utilizan también en la imaginería visual mental. Ahora es el momento de sacar provecho de la teoría del procesamiento perceptual y de descubrir si éste añade genuino contenido en la naturaleza y funciones de la imaginería.

Considérese la siguiente tarea: uno está a punto de salir a acampar con una familia amiga y está preocupado acerca de cómo encajar todo el equipo en el baúl . Entonces, en principio, se visualiza cada item (la tienda, las bolsas de dormir, el refrigerador y todo lo demás), que ayudará a recordar cada uno de los objetos que deben empaquetarse. Después, se visualiza uno de los objetos, digamos, la tienda, dentro del baúl, y se lo manipula mentalmente para “ver” en qué posición dejará más espacio libre en el baúl. A continuación, uno conserva esa imagen (por ejemplo, la de la tienda a la izquierda de la parte de atrás del baúl) y añade las bolsas de dormir, moviéndolas mentalmente alrededor hasta que se “ve” donde podría ubicarse para dejar el mayor espacio libre posible. Se mantiene esta imagen completa, se la recorre, “mirando” dónde hay espacios vacíos para el refrigerador y lo demás, y se van añadiendo estos objetos adicionales a la imagen. Cuando, finalmente, se ha encontrado el modo de guardar todo en el baúl, se memoriza esta configuración. Así, a la mañana siguiente, uno amontona todas sus pertenencias en el borde y, de inmediato, las dispone eficientemente en el baúl, impresionando a todos los espectadores.

Esta tarea supone cuatro clases de habilidades de la imaginería. Requiere [1] generación de imágenes (formar las imágenes de cada item y del baúl), [2] inspección de las imágenes (observar el modo en que los items encajan en el baúl), [3] mantenimiento de las imágenes (retención de las imágenes de los items considerados previamente), y [4] transformación de las imágenes (desplazando mentalmente los items). También ilustra un ejemplo del papel de la imaginería en el proceso de razonamiento (anticipación de manipulaciones físicas reales) y el papel de la imaginería en el proceso de aprendizaje (memorización del resultado final y, posiblemente, la inducción de algunos principios generales, tales como que los items extrañamente configurados deben ir en las esquinas). Asumo que un objeto imaginado puede codificarse en los subsistemas de activación de patrones del mismo modo en que pueden almacenarse los estímulos percibidos.

 

(286) GENERACION DE IMAGENES

 

Quizá el hecho más obvio acerca de la imaginería mental visual es que no siempre tenemos una imagen de cualquier objeto dado. Las imágenes van y vienen y la imagen concreta que tenemos depende de la situación. Es preferible considerar a los patrones de actividad en la memoria de trabajo que corresponden a las imágenes como representaciones de la memoria de corto-plazo. Tales representaciones son transitorias y, por tanto, deben crearse sobre la base de información almacenada de modo más permanente (o deben retenerse a partir de la información perceptual on-line).

Es útil comenzar distinguiendo tres modos generales de generar imágenes visuales mentales: (1º) puede recordarse un objeto o acontecimiento previamente visto. En este caso, la información almacenada simplemente puede activarse. Sin embargo, incluso este proceso de activación puede ser complejo: pueden verse individualmente partes diferentes de un objeto individualmente y, así, puede almacenarse un conjunto de representaciones diferentes. Si esto ocurre, entonces el proceso de generación debe integrar estas representaciones; (2º) una de las razones por las que la imaginería es útil es porque se pueden combinar objetos de modo original; (3º) también pueden visualizarse patrones nuevos que no se basan en el reordenamiento de componentes familiares; pueden “diseñarse mentalmente” modelos que nunca han sido efectivamente vistos.

La generación de imágenes no es un proceso simple.

 

(287) Generar imágenes simples (“single-part images”)

 

Puede ser útil dividir el problema en dos partes: primero, cómo pueden formarse imágenes de unidades perceptuales individuales; segundo, cómo pueden amalgamarse imágenes de dos o más de tales unidades para formar un objeto o escena único.

La generación de imágenes es una extensión de la clase de preparación (“priming”) de la atención expuesta en el capítulo 7. Se accede a la representación de un objeto en la memoria asociativa y se activa el “código de modelos” asociado con el objeto, el cual, a su vez, carga la representación de la modalidad específica en el adecuado subsistema de activación de modelos. Para formar una imagen propiamente dicha, se prepara la representación como para que envíe retroalimentación a las áreas anteriores. Esta retroalimentación engendra una configuración de la actividad en la memoria visual intermedia, que es la imagen adecuada. En esencia, las imágenes se forman por el mismo proceso que permite anticipar lo que se vería si un determinado objeto o escena estuviera presente.

Los mecanismos que subyacen en la preparación (“priming”) visual se usan también en la imaginería visual.

(288) Otros experimentos diferentes, destinados a examinar el otro lado de la moneda: si la imaginería puede preparar la percepción.

(289) Fuerte evidencia de que la imaginería depende de mecanismos que producen la preparación de la percepción. Es más, los resultado evidencian que el efecto depende de la forma específica del modelo imaginado, no sólo de su identidad.

Si las imágenes de las formas individuales recordadas (que pueden o no incluir color, textura o movimiento) se forman activando las representaciones en uno de los subsistemas de activación de modelos, entonces es fácil explicar por qué se visualiza una determinada taza de café que se ha visto (activación de una representación en el subsistema de activación de los modelos ejemplares) o puede visualizarse una taza genérica (activación de una representación en el subsistema de activación de los modelos categóricos). Sin embargo, en parte porque las proyecciones eferentes no están objetivadas con tanta precisión como las aferentes, las imágenes de ejemplares específicos pueden no ser tan vívidas o nítidas como las imágenes de la información de objetos reales.

La generación de imágenes también abarca la memoria asociativa. No es una sorpresa que los individuos visualicen los objetos de nivel básico más rápido que los objetos superordinados o subordinados.

(290) Supongo que habitualmente uno se imagina una forma prototípica de un objeto, porque el término del nivel de entrada se corresponde con esa representación en el subsistema de activación de modelos; en general, las representaciones genéricas en el subsistema de activación de modelos son “más fuertes” (porque se las activa con mayor frecuencia) que la representación de cualquier objeto específico.

Si esta hipótesis es correcta, entonces la gente no visualizará un prototipo del objeto de nivel de entrada, en las dos siguientes circunstancias: primero, si sólo se ha tenido un exclusivo contacto con un único ejemplar de una categoría (p.e., el propio perro). Segundo, si se es un experto en un dominio.

La afirmación de que se accede a la misma representación en la memoria asociativa cuando se nombra un objeto y cuando se inicia el proceso de formación de las imágenes visuales mentales, conduce a una simple predicción: si una representación en la memoria asociativa es “fuerte”, entonces los individuos identificarán y visualizarán la figura correspondiente rápidamente.

(291) Otros resultados indican que los procesos en la memoria asociativa juegan un papel crítico en la generación de imágenes, incluso cuando se imagina sólo una única unidad perceptual.

Si se ve un objeto a demasiada distancia, sus detalles se confundirán. Durante la percepción, su pueden ver los detalles de un objeto relativamente grande mucho más claramente de lo que permitiría esperar una función tamaño/distancia estrictamente lineal. Un proceso semejante puede ocurrir cuando, más tarde, se imaginan los objetos.

 

Generar imágenes complejas (“multipart images”)

 

También debe comprenderse cómo las unidades perceptuales individualmente almacenadas pueden integrarse para formar un único objeto (o escena). Durante la percepción, es característico que se codifique primero la forma general. Esta representación se codifica encuadrando, en la ventana de atención, la imagen de la información que está en la memoria visual intermedia. Por tanto, la (292) representación sufre por un cambio de alcance-de-resolución (scope-resolution): sus porciones individuales no estarán muy claras. A cada momento, la ventana de atención incluye material que extiende sobre un ángulo visual específico y cuanto mayor es el ángulo, será más baja la resolución del modelo codificado. Después de codificar la forma general, se pueden inspeccionar las partes y características individuales del objeto, que se codificarán de a una por vez, así como las relaciones espaciales entre ellas. Si así fuera, entonces posteriormente, se deberán amalgamar varias representaciones diferentes para formar una imagen completa del objeto. En tal caso, no sólo se necesita activar las memorias visuales almacenadas, sino que también deben activarse las representaciones almacenadas de las relaciones espaciales y utilizar estas representaciones para disponer las partes y características componentes adecuadamente.

Específicamente, las imágenes complejas pueden formarse del siguiente modo. Calculatoriamente, tiene sentido formar, primero, una imagen global del modelo (the “skeletal image” de Kosslyn 1980) que podría llegar a desarrollarse si fuera necesario. Dado que la imagen global experimenta un cambio de alcance-de-resolución, deben activarse representaciones adicionales y formarse imágenes en lugares determinados, si se necesitan partes de alta resolución. Asumo que “la prioridad de lo global” es útil tanto en la generación de imágenes como en la codificación perceptual, por la misma razón: en ambas situaciones, la “base del terreno” (lay of the land) ayuda a organizar los detalles.

(293) El proceso de desarrollar la imagen global requiere acceder primero a la ubicación de lo que he denominado la parte fundamental (“foundation part”), que es la porción de la forma que está indexada por la relación espacial asociada con una parte o propiedad imaginable (to-be-imaged).

Sin embargo, en algunos casos, la ubicación de una parte o propiedad no puede indexarse en relación con la imagen global, pudiendo requerir el previo acceso a otras partes, hasta que se encuentra una referencia directa a una porción de la imagen global.

Una vez adecuadamente ubicado, la ventana de atención codifica un nuevo modelo en los sistemas dorsal y ventral que se corresponde con la parte o propiedad esperadas (o sea, se reconoce e identifica la parte fundamental)..................

 

(294) Las formas más complejas requieren más tiempo de visualización y el tiempo para generar una imagen crece con el número creciente de las partes.

Las partes deben añadirse una a una en una secuencia específica. Esta predicción está en desacuerdo con la moda actual del procesamiento en paralelo.

 

(295) Relaciones espaciales categóricas y coordenadas en la generación de imágenes

 

Dos son los modos según los que pueden codificarse y almacenarse las relaciones espaciales: como coordenadas, del tipo que se usa para guiar los movimientos o como categorías (tales como arriba/abajo). Si se almacenan ambos tipos de representaciones, parece plausible que ambos puedan usarse para organizar las partes o características en las imágenes. Además, las relaciones espaciales coordenadas se codifican mejor en el hemisferio derecho, mientras que las relaciones espaciales categóricas lo hacen mejor en el izquierdo (aunque este efecto no es tan fuerte como la lateralización de las relaciones espaciales coordenadas). Si las representaciones tienden a almacenarse más en el hemisferio en que lo hacen, entonces (296) podrán esperarse diferencias hemisféricas en la generación de imágenes. Específicamente, el hemisferio izquierdo podrá ser mejor que el derecho si se utilizan relaciones espaciales categóricas para organizar las partes en una imagen, pero el hemisferio derecho podrá ser mejor que el izquierdo si se usan coordenadas para organizar las partes en una imagen.

 

(297)(298) Prueba de las predicciones críticas: mecanismos perceptuales y generación de imágenes

 

(299)(300)(301) Imaginería ventral y dorsal

 

Considérese lo que pasa cuando se visualiza un árbol de navidad. En contraste, considérese lo que pasa cuando se mira un piso embaldosado. Estas dos clases de imaginería parecen muy diferentes. En una, se activan las propiedades del objeto; en la otra, sólo se activan las propiedades espaciales.

Esta distinción entre imaginería basada en la memoria visual e imaginería basada en la atención es consistente con los hallazgos de Levine, Warach y Farach.

(302) Estos hallazgos sugirieron a los investigadores que hay una clase de imaginería basada en las propiedades del objeto y otra basada en las propiedades espaciales.

[Los resultados de varias experiencias] nos llevaron a usar una tarea de percepción como un control para una tarea de imaginería.

O sea, asumimos que la tarea de imaginería tiene dos componentes principales: primero, los sujetos deben activar información visual almacenada para visualizar parte de un objeto y, sólo entonces, pueden “inspeccionar” los modelos imaginados para propiedades específicas. Los resultados de Podgorny y Shepard sugieren que los mismos procesos de “inspección” se usan para la imaginería y la percepción en estas tareas.

 

(303)(304)(305) Diferencias funcionales entre los dos tipos de imaginería. Vale la pena considerar la posibilidad de que, bajo determinadas circunstancias, los modelos con partes a nivel de resolución semejante puedan “compactarse” (be “chunked”) en una sola unidad, en el momento de encodificarse, y, posteriormente, puedan activarse cada una de sus partes cuando se usa la imaginería basada en la memoria visual. Por ejemplo, cuando se imagina el rostro de alguien, no es necesario construir la imagen por partes sucesivas, añadiendo la nariz, los ojos, la boca, etc., porque se ven tan frecuentemente rostros normales que un proceso de agrupación perceptual se construye en el subsistema de preprocesamiento. Por tanto, un rostro puede codificarse como una unidad simple, que puede imaginarse como tal.

Por el contrario, un modelo creado durante la imaginería basada en la atención no puede formarse “configurando” (by “shaping”) la ventana de atención para abarcar una región más compleja; aparentemente, la atención está restringida a un área regular encerrada. Por tanto, se debe atender a la región de cada segmento individualmente y en secuencia. Este mecanismo implica que, cuanto más complejo es el modelo, más tiempo se requerirá para formar su imagen basada en la atención. Por el contrario, si se encodifica el modelo como una única unidad perceptual, el tiempo para activarla no dependería de su complejidad; los modelos importantes en una red neuronal operan en paralelo para producir el output.

 

(306)(307)(308) ¿Cuatro tipos de generación de imágenes? Las imágenes pueden formarse utilizando representaciones de relaciones categoriales o de relaciones de coordenadas espaciales para ordenar los componentes; y las imágenes de los componentes individuales pueden formarse distribuyendo la atención o activando las memorias visuales.

Cornoldi, De Beni y Pra Baldi distinguen entre las imágenes generales, específicas y autobiográficas.

 

Imaginar disposiciones nuevas de objetos familiares

 

Una de las razones por las que la imaginería es útil es porque se pueden visualizar objetos con partes o características nuevas o escenas que nunca se han experimentado realmente. (309) Cuando se leen oraciones o se escucha una descripción, una serie de procesos decodifica las palabras, activando eventualmente representaciones específicas en la memoria asociativa. Las descripciones corresponden a los nombres de los objetos y de las relaciones espaciales categóricas y, por tanto, pueden acceder a las representaciones, en la memoria asociativa, que se necesitan para imaginar adecuadamente los componentes y las posiciones.  Una imagen se construye exactamente tal como es cuando se usan las relaciones espaciales categóricas para disponer las partes de los objetos. Excepto que, en este caso, los propios objetos se imaginan en relación cada uno respecto del otro. La imagen del primer objeto se forma y, entonces, las relaciones categóricas especificadas en la descripción se usan para cambiar la ventana de atención hacia la ubicación a la que pertenece el segundo objeto. La función de proyección a partir de los subsistemas de activación de lo modelos se altera adecuadamente y se forma la segunda imagen, y así en adelante.

Glushko y Cooper mostraron que las imágenes mentales formadas sobre la base de descripciones involucran de hecho mecanismos visuales.

Presumiblemente, la misma secuencia de acontecimientos ocurren cuando la imagen de un nuevo modelo se especifica, no mediante una descripción que se escucha o se lee, sino más bien mediante un pensamiento. Parto del supuesto de que un pensamiento se corresponde con un conjunto de (310) representaciones activadas en la memoria asociativa, lo que puede estar acompañado por una imagen.

 

Imaginar modelos nuevos

 

Se puede “diseñar mentalmente”, visualizar modelos que nunca se habían visto y que no consisten simplemente en nuevas combinaciones de componentes familiares. Este proceso es un caso de la imaginería basada en la atención. Sólo que en este caso no se cambia la ventana de atención hacia una secuencia de ubicaciones discretas, sino más bien se mueve continuamente, activando el camino dejado a su paso (“in its swath”).

 

Una representación multiescalar

 

Las imágenes son configuraciones de actividad en la memoria de trabajo. La memoria de trabajo se propone aquí como multiescalar, representando la información a diferentes niveles de resolución. Por tanto, dependiendo de lo que se ha almacenado, una imagen puede generarse después a un determinado nivel de resolución. La actividad inducida en el área V1 proporcionará una imagen de alta resolución, pero imágenes menos claras provendrán de los modelos de activación en otras áreas topográficamente organizadas. La memoria de trabajo (“the visual buffer”) no es tan sólo el área V1.

 

(311) Localización anatómica: lateralización cerebral

 

El hemisferio izquierdo o derecho puede jugar un papel especial en la generación de imágenes, según el método específico utilizado para generar una imagen.

 

(312) Generación de imágenes del hemisferio izquierdo [(313) El paciente también tenía dificultad para dibujar de memoria, pero este déficit no refleja necesariamente un problema en la generación de imágenes. No está claro qué papel tiene la imaginería (la generación de imágenes) en la actividad de dibujar; se puede ser capaz de dibujar sólo sobre la base de conjuntos de coordenadas motrices formuladas en ausencia de imaginería]

La idea de que el hemisferio izquierdo juega un papel especial en la integración de las partes de las imágenes.

[Las representaciones almacenadas pueden estar intactas, pero puede existir un déficit en la generación de imágenes]

 

(314)(315) Generación de imágenes del hemisferio derecho. (316) [Es posible que los sujetos imaginen las letras usando uno de estos dos métodos: pueden confiar en el subsistema ejemplar de activación de modelos (que aparentemente es más efectivo en el hemisferio derecho) para la forma global y en las relaciones espaciales de coordenadas para las partes de alta resolución, o pueden confiar en el subsistema categorial de activación de modelos (que aparentemente es más efectivo en el hemisferio izquierdo) para la forma global y usar las relaciones espaciales categóricas para ubicar las partes de alta resolución.

 

(317) Procesamiento bilateral. Uno de los mayores avances en la investigación en neurociencias cognitivas es la descomposición de funciones tales como percepción, memoria, atención e imaginería en conjuntos de procesos componentes. Y cada proceso componente puede implementarse en un lugar diferentes en el cerebro. Por tanto, no me parece probable que el cerebro tenga un único modo de cumplir cualquier tarea dada o que el proceso utilizado para cumplir una tarea dada esté localizado en un único lugar en el cerebro. Pueden usarse diferentes combinaciones de subsistemas para componer diferentes estrategias. La teoría que he desarrollado aquí sugiere que hay al menos cuatro modos de generar imágenes de multipartes, que ya bien utilizan el cambio de atención (y usan tanto relaciones categoriales como relaciones de coordenadas espaciales para guiar los cambios) y las regiones marcadas de la memoria de trabajo, o ya bien utilizan la activación de las memorias visuales (y usan relaciones categoriales o relaciones de coordenadas espaciales para juxtaponer las partes). Según el método usado, resultaran involucradas diferentes partes del cerebro.

 

(318)(319) Resumen: generación de imágenes

 

Se han discutido cinco clases de habilidades de generación de imágenes.

Primero, una imagen de una forma global simple se genera cuando un subsistema de búsqueda de propiedades accede a un código de modelos en la memoria asociativa y lo envía a los subsistemas de activación de modelos. El subsistema de activación del modelo más activado, a su vez, engendra una configuración de actividad (una imagen) en la memoria de trabajo visual. Esta clase de activación es una forma extrema de preparación (“priming”), de la clase usada cuando se espera ver un objeto o parte específica durante la percepción.

Segundo, si se requieren partes de alta resolución, éstas se añaden a la imagen global mediante un conjunto de procesos que se apoyan en los subsistemas también usados en (320) la prueba de las hipótesis top-down perceptuales. Estos subsistemas de búsqueda de propiedades acceden a una representación (en la memoria asociativa) de la ubicación de la parte y su relación con una “parte fundamental” (o sea, a la que pertenece la parte que debe añadirse). Los subsistemas de cambio de atención usan esta representación para cambiar la ventana de atención, tal como ocurre durante la prueba de las hipótesis top-down en la percepción. Una vez ubicada adecuadamente, la función de proyectar (“mapping”) la imaginería se altera para imaginar una nueva parte en el lugar y tamaño apropiados.

Distinguí entre dos modos de generar tales imágenes múltiples: para ubicar las partes pueden usarse ya bien representaciones de relaciones de coordenadas espaciales o representaciones de relaciones de categorías espaciales. Supongo que si se usan relaciones de coordenadas espaciales, se usa el subsistema de activación de modelos ejemplares para imaginar las partes; en la mayoría de los casos, se necesitan partes con formas específicas si se emplean relaciones espaciales precisas. De modo semejante, supongo que si se usan relaciones espaciales categóricas, se usa el subsistema de activación de modelos de categorías para imaginar las partes; en la mayoría de los casos, se necesitan partes con formas prototípicas si se emplean relaciones espaciales “genéricas”.

Tercero, los tres tipos de imaginería observados hasta aquí implican la imaginería basada en la memoria visual, pero también se puede generar imaginería basada en la atención. La imaginería basada en la memoria visual requiere la activación de representaciones de las propiedades del objeto en el subsistema de activación de modelos. Por el contrario, la imaginería basada en la atención no requiere la activación de memorias visuales. Más bien, los subsistemas de cambio de atención, que mueven la ventana de atención en la memoria de trabajo visual, buscan las relaciones espaciales (directamente o mediante el subsistema de conversión de lo categorial en coordenado) en la memoria asociativa. Se acude a la atención, en cada ubicación sucesiva, para formar la imagen espacial. También distingo dos modos de formar tales imágenes, lo que depende del uso de relaciones espaciales categóricas o coordenadas, para cambiar la ventana de atención.

Además, he formulado la hipótesis de que las nuevas combinaciones de partes, características u objetos familiares se forman del mismo modo que las imágenes de objetos con partes de alta resolución. En este caso, las representaciones de relaciones espaciales (tanto decodificadas de una descripción verbal, como formuladas en alguna otra parte del sistema) se usan para organizar imágenes globales o imágenes de partes o características. Para generar una imagen de una nueva escena, la función de esbozo de la imaginería se altera como lo hace cuando se incrementa un objeto simple y las imágenes de los objetos se forman como cuando se los visualiza aislados.

Finalmente, garabatos y otras formas de modelos nuevos se forman utilizando imaginería basada en la atención, sólo que ahora la ventana de atención cambia no de una ubicación discreta a otra, sino gradualmente. En este caso, se abandona un camino de activación conforme cambia la ventana de atención.

 

 

(321) MANTENIMIENTO DE LA IMAGEN

 

Para muchas tareas, es necesario retener las imágenes durante un tiempo, para que  sean útiles. Las imágenes mentales se esfuman rápidamente y yo sugerí que el mantenimiento de las imágenes es un caso especial de la generación de imágenes. Una vez generada una imagen basada en la memoria visual, están establecidas las funciones de proyección desde las unidades perceptuales individuales en los subsistemas de activación de modelos sobre la memoria visual de trabajo. Por tanto, para mantener una imagen, no se necesita acudir a los mecanismos usados en la comprobación de las hipótesis top-down; más bien, sólo se necesita reactivar las representaciones de la imagen comprimida de la imagen global y las partes y características que se le añadieron. De modo semejante, una vez generada una imagen basada en la atención, la atención queda fijada sobre las regiones adecuadas de la memoria de trabajo visual. Para retener esta imagen, sólo se necesita mantener la atención focalizada en esas regiones. Ambas clases de procesos se adaptan muy rápido, lo que es una razón acerca de por qué las imágenes se hacen incrementadamente difíciles de conservar cuando se las mantiene durante largos períodos.

 

Mantenimiento versus generación

 

[Ante la consigna de retener una imagen] La actividad en las regiones frontales cesa, dejando sólo actividad en las regiones retrorolándicas. Esto es lo que se espera si el proceso de mantenimiento de las imágenes no requieren los mecanismo usados para integrar las partes en una imagen durante la generación de imágenes.

 

“Compactamiento” durante el mantenimiento de la imagen

 

Para mantener la imagen de un objeto o escena nuevos, primero hay que encodificar la imagen en un subsistema de activación de modelos como una representación nueva (322) y después hay que activar esta nueva representación. Parto del supuesto de que la cantidad de material que se puede mantener en una imagen está limitada por la cantidad de unidades almacenadas que puede activarse al mismo tiempo, por las siguientes razones: cada unidad se activa individualmente y se requiere tiempo para cada operación. Y tan pronto como se ha activado una unidad, la imagen comienza a desvanecerse. Por tanto, después de activarse una cierta cantidad de unidades, las que se activaron inicialmente se desvanecerán.

En el capítulo 5 sugerí que el subsistema de preprocesamiento extrae propiedades no-accidentales y notables, que se incluyen en los subsistemas de activación de modelos. El procesamiento en la memoria visual de trabajo organiza reflexivamente la unidad de la información en unidades perceptuales, definidas por bordes y regiones del mismo color, textura o intensidad. Estas unidades con frecuencia pueden ser fragmentarias (Marr, 1982) y necesitan organizarse de nuevo para proporcionar claves útiles para el reconocimiento; las propiedades no-accidentales y notables organizan tales unidades en conjuntos, que delinean unidades perceptuales de orden superior. Estas unidades perceptuales (p.e., definidas por un conjunto simétrico de líneas, un modelo de franjas, etc.) sirven para activar las representaciones de objetos, partes o características almacenadas.

El subsistema de preprocesamiento opera sobre cualquier información que reciba y, así, jugará el mismo papel en la imaginería. Si esto es así, entonces la cantidad de elementos en la información no será el determinante crítico acerca de la cantidad de información que puede mantenerse en una imagen, sino que lo será más bien el modo como estos elementos están organizados. Si un modelo nuevo tiene las yuxtaposiciones adecuadas entre los elementos, se encodificará mediante relativamente pocas unidades y, por tanto, será más fácil de mantener. Una vez efectivamente organizado, las propiedades no-accidentales y notables abarcarán (“will span”) los elementos individuales, encodificándolos en mayores (y menor cantidad de) unidades; pero con otros ordenamientos, el mismo número de elementos será difícil de mantener. Los pedazos pueden formarse en parte atendiendo a los elementos seleccionados de un modelo; por ejemplo, si se focaliza la región simétrica de una gran modelo ubicando adecuadamente la ventana de atención, esa porción puede encodificarse como una unidad. Si no se focaliza sobre ella, puede quedar organizada con otras porciones del modelo. Por tanto, los factores que influyen en cómo se “atiende” (“looks at”) a un modelo también influirán en cómo se lo compacta.

(323) Según esta teoría, los límites de rendimiento de las imágenes mentales deben determinarse por tres clases de factores: primero, lo efectivamente que puede compactarse determinada clase de material. Segundo, lo rápidamente que cada unidad perceptual se desvanece. Y tercero, lo rápida y frecuentemente que puede renovarse la imagen.

 

(324) La imaginería y la “memoria de trabajo” (“Working Memory” [y no “Buffer”])

 

El mantenimiento de la imagen yace en el corazón del uso de la imaginería en el razonamiento; tales tareas requieren habitualmente al menos unos pocos segundos para realizarse y, por tanto, si no puede mantenerse la imagen, ésta es inútil. [Imaginería como un tipo de “modelo mental” de la clase desarrollada por Johnson-Laird.]

El papel de la imaginería en el razonamiento descansa en lo que Baddeley (1986, 1992) llamó memoria de trabajo. Desde mi perspectiva, el proceso de mantenimiento de la imagen define aspectos claves de la memoria de trabajo. La memoria de trabajo descansa en parte en la memoria a corto-plazo y en la memoria a largo-plazo. La memoria a corto-plazo actúa cuando se usa una estructura perceptual (tal como la memoria visual de trabajo [“visual buffer”]) para representar información traída desde la memoria a largo-plazo; tales representaciones son transitorias y requieren esfuerzo para atenerse. Las imágenes visuales mentales son una forma de representación de la memoria a corto-plazo. Por el contrario, la información en la memoria a largo-plazo no es necesariamente transitoria y no requiere esfuerzo para mantenerse. Estas representaciones pueden ser modalmente específicas, tal como las representaciones en los subsistemas de activación de modelos o pueden ser amodales, en la memoria asociativa.

La memoria de trabajo incluye información mantenida en las diversas estructuras de la memoria a corto-plazo más la información que se activa en las diversas estructuras de la memoria a largo-plazo. Además, incluye los “procesos de control” (incluidos los subsistemas de búsqueda de propiedades) que activan la información en la memoria a largo-plazo y mantienen la información en la memoria a corto-plazo. Esta concepción implica una relación dinámica entre los contenidos de la memoria a corto y a largo plazo. El hecho de que se pueda tener “preparación [“priming”] inconsciente” (la clase usual), indica que puede activarse más información en la memoria a largo-plazo de la que se representa en la memoria a corto-plazo. Dados los límites severos de capacidad de la memoria a corto-plazo, con frecuencia puede activarse más información en la memoria a largo-plazo de la que puede representarse en la memoria a corto-plazo. Por tanto, con frecuencia se producirá un complejo proceso de “trueque” [“swapping”] entre los dos tipos de memoria, que entremezcla información dentro y fuera de la memoria a corto-plazo.

 

(325) Resumen: mantenimiento de la imagen

 

Las imágenes basadas en la memoria visual se mantienen mediante la activación repetida de una representación de la imagen comprimida o conjunto de tales representaciones en un subsistema de activación de modelos. Las imágenes basadas en la atención se mantienen comprometiendo continuamente la atención sobre el mismo lugar en la memoria de trabajo visual. Finalmente, los procesos de mantenimiento de la imagen juegan un papel fundamental en la memoria visual de trabajo.

 

 

 

 

 

CONCLUSIONES

 

Tanto la generación de imágenes como el mantenimiento de imágenes puede tener lugar mediante mecanismo usados en la percepción visual. La generación de imágenes se obtiene mediante los subsistemas que acceden a la información en la memoria asociativa, preparan los subsistemas de activación de modelos y reubican la atención durante las pruebas de las hipótesis perceptuales top-down, y el mantenimiento de las imágenes se obtiene mediante representaciones repetidamente reactivadas en los subsistemas de activación de modelos o reutilizando la atención.

 

 

 

 

(327) Cap. 10

Inspección y transformación de las imágenes visuales

 

Los mecanismos que fundamentan la inspección y transformación de las imágenes trabajan de modo muy próximo. Además, algunos de los procesos que generan imágenes también tienen un papel de la inspección y transformación de las imágenes.

Repito que las propiedades de esta habilidad de la imaginería surgen directamente de las propiedades de nuestro sistema de percepción visual: imaginar es "ver con los ojos de la mente".

Las imágenes mentales son útiles no sólo para recordar información, sino también para el razonamiento lo que requiere que puede reordenarse y reinterpretarse de diversos modos. En el Cap. 5 se demostró que la percepción visual utiliza poderosos mecanismos que pueden alterar el tamaño, ubicación y forma proyectada de las imágenes mentales visuales; también etos mecanismos sustentan las transformaciones de las imágenes.

 

INSPECCION DE IMAGENES

 

Los objetos imaginados se interpretan utilizando los mismos mecanismos que los objetos percibidos.

 

Imaginería y percepción

 

(328) Tres clases de hallazgos: interferencia, facilitación y fenómenos correspondientes.

Primero, las imágenes interfieren con la percepción cuando los estímulos imaginados y los que deben detectarse no son muy semejantes.

Segundo, si el modelo imaginado y el modelo percibido son el mismo, entonces la imaginería puede facilitar la encodificación visual, sin interferir con ella. La facilitación puede provenir de (1) una disminución del umbral para una forma específica en una región específica o (2) de una sensibilidad incrementada en la memoria de trabajo visual o en los subsistemas de activación de modelos para una forma específica. Espero un incremento de sensibilidad cuando los sujetos deben distinguir entre estímulos semejantes o cuando la tarea conduce a los sujetos a usar imaginería basada en la atención.

Tercero, si la imaginería y la percepción dependen de los mismos mecanismos de encodificación, las peculiaridades de la operación de estos mecanismos, frecuentemente, debe hacerlos conocidos en ambos casos.

(329) El supuesto de que la imaginería y la percepción comparten mecanismos comunes nos permite comprender por qué la lesión del cerebro puede ocasionar déficits en la imaginería semejantes a los encontrados en la percepción.

 

Imaginería intacta y percepción dañada.

 


 

 

(379) Cap. 11

Generación y mantenimiento de las imágenes visuales

 

 

 

(1) Cap. 1

Resolver los debates sobre la imagen (1)

       LOS DEBATES SOBRE LA IMAGINERÍA (3)

       Fase 1: representaciones mentales alternativas (4)

       Fase 2: ¿problemas metodológicos? (9)

       Fase 3: más allá de los resultados comportamentales (12)

       RESOLVER LOS DEBATES SOBRE LA IMAGINERÍA (20)

       Plan del libro (21)

 

(25) Cap. 2

Tallando las articulaciones de un sistema (25)

       SUBSISTEMAS DE PROCESAMIENTO (25)

       Modularidad débil (29)

                   Penetrabilidad (29)

                   Interdependencia funcional (30)

                   Transiciones crecientes (30)

                   Localización anatómica (30)

                   Implementación superpuesta (31)

       Interacción entre subsistemas (32)

                   Procesamiento concurrente (32)

                   Cálculo cooperativo (32)

       Reconsideración del método de Marr (35)

       El triángulo de la neurociencia cognitiva (37)

       CONSIDERACIONES METODOLÓGICAS (39)

       Tiempo de respuesta y proporción de errores (39)

                   Fortalezas principales (40)

                   Debilidades principales (40)

       Estudios sobre el campo visual dividido (40)

                   Fortalezas principales (41)

                   Debilidades principales (41)

       Déficits provenientes de daños cerebrales (42)

                   Fortalezas principales (42)

                   Debilidades principales (42)

       Activación cerebral (45)

                   EEG, ERP y MEG (45)

                   133Xe rCBF y EPECT (45)

                   PET (46)

                   fMRI (47)

                   Fortalezas generales principales (47)

                   Debilidades generales principales (47)

       Lesiones en el cerebro de animales (49)

                   Fortalezas principales (49)

                   Debilidades principales (49)

       Estudios de información de célula-única de animales (49)

                   Fortalezas principales (49)

                   Debilidades principales (50)

       Necesidad de coordinar evidencias (50)

       CONCLUSIONES (51)

 

(53) Cap. 3

Vision de alto nivel (53)

            IMAGINERÍA Y PERCEPCIÓN (54)

            Hallazgos comportamentales (54)

            Resultados neuropsicológicos (58)

EL PROBLEMA DE LA IDENTIFICACIÓN DE OBJETOS: CINCO CLASES DE HABILIDADES (60)

Ubicaciones y distancias diferentes (ángulos visuales) (60)

Variaciones de forma (61)

Input empobrecido (62)

Instancias específicas (63)

Objetos y escenarios (63)

PEQUEÑO COMIENZO: EL PAPEL DE UN PROTOMODELO (64)

Exigencias neuroanatómicas básicas (64)

Siete subsistemas (68)

                        El protomodelo en la identificación del objeto visual (69)

                                   La memoria visual intermedia (“The Visual Buffer”)(70)

                                   La ventana de atención (70)

                                   El sistema ventral (70)

                                   El sistema dorsal (71)

                                   La memoria asociativa (73)

                                   La búsqueda de información (73)

                                   El cambio de atención (74)

                                   El protomodelo en la imaginería mental visual (74)

CONCLUSIONES (76)

 

(79) Cap. 4

Identificación de objetos en diferentes ubicaciones

IDENTIFICACIÓN DE OBJETOS EN UBICACIONES DIFERENTES EN EL CAMPO VISUAL (79)

       ¿La división del trabajo es calculatoriamente eficiente? (80)

                   Cómo se lograba relevar (mapping): campos receptivo y proyectivo (82)

                   Conclusiones de las simulaciones (84)

       La memoria visual intermedia (“The visual buffer”) (85)

                   Localización anatómica (86)

       La ventana de atención (87)

                   Operación de la ventana de atención (89)

                   Localización anatómica (91)

       El cambio de atención basado en el estímulo (92)

                   Localización anatómica (93)

       Resumen: identificación de objetos en diferentes posiciones en el campo visual (94)

       IDENTIFICACIÓN DE OBJETOS A DISTANCIAS DIFERENTES (94)

       Ajuste creciente (94)

       Propiedades adicionales de la memoria visual intermedia (“the visual buffer”) (95)

       Resumen: identificación de objetos a distancias diferentes (98)

       IMAGINERÍA Y PERCEPCIÓN (98)

       La memoria visual intermedia en el imaginería (99)

                   Resolución (99)

                   Ángulo visual (99)

                   Mantenimiento (101)

       Ventana de atención (101)

                   Registro (“scanning”) de las imágenes (101)

       Cambio de atención basado en el estímulo (102)

       Convenio acerca de la perspectiva de resolución (“Scope-resolution Trade-off”) (104)

       CONCLUSIONES (104)

 

(105) Cap. 5

Identificación de objetos cuando se ven partes diferentes.

IDENTIFICACIÓN DE OBJETOS VISTOS DESDE DIFERENTES PUNTOS (105)

       La necesidad de pasos de procesamiento intermedios (105)

       SUBSISTEMA DE PREPROCESAMIENTO (107)

       Evidencia respecto del uso de propiedades no accidentales (110)

                   Evidencia clínica (112)

Regreso al reconocimiento de objetos en ubicaciones diferentes (114)

Propiedades “señales” (114)

SUBSISTEMA DE ACTIVACIÓN DE PATRONES (117)

Correlación del la información con patrones almacenados (119)

            Correlación basada en la imagen (120)

Evidencia para la retroalimentación de la imaginería (122)

Representaciones centradas en el objeto versus centradas en el observador (127)

            Evidencia para las representaciones centradas en el observador (127)

            Evidencia para las representaciones centradas en el objeto (135)

Localizaciones anatómicas (136)

Resumen: identificación de objetos desde diferentes puntos (145)

IMAGINERÍA Y PERCEPCIÓN (145)

Activación de imágenes (146)

Inspección dse imágenes (149)

Mantenimiento de imágenes (150)

Transformaciones de imágenes (151)

CONCLUSIONES (151)

 

 

(153) Cap. 6

Identificación de objetos en imágenes degradadas

       MOVIMIENTO (153)

Subsistema de codificación de relaciones de movimiento (154)

            Localización anatómica (155)

       PARTES Y TOTALIDADES (157)

       Análisis perceptual (158)

                   El papel de las partes en el reconocimiento (161)

       Subsistema de correlación espaciotópico (168)

                   Sistemas de referencia (168)

                   Un subsistema diferente (170)

                   Ubicación, tamaño y orientación (172)

                   Niveles de resolución (172)

                   Localización anatómica (174)

                   Resolución de una inconsistencia (176)

       DOS ESTRUCTURAS DE LA MEMORIA VISUAL (178)

       Evidencia empírica (178)

       El papel de las diferencias en los tamaños de los campos receptores (182)

       Localización anatómica (187)

       Resumen: identificación de objetos en imágenes degradadas (188)

       IMAGINERÍA Y PERCEPCIÓN (188)

       CONCLUSIONES (189)

 

(191) Cap. 7

Identificación de objetos retorcidos.

RELACIONES ESPACIALES CATEGÓRICAS VERSUS COORDENADAS (192)

Pruebas empíricas (194)

            Evidencia convergente (198)

            Efectos de la práctica (202)

Modelos de cálculo (203)

            Un mecanismo calculatorio (204)

Prueba de una predicción (206)

Representaciones dorsal y ventral complementarias (209)

Dos tipos de cálculos de relaciones espaciales categoriales (210)

Resolución de una paradoja potencial (212)

Localización anatómica (213)

MEMORIA ASOCIATIVA (214)

Conexiones versus ejemplares (216)

El problema del ligamiento (218)

El procesamiento en la memoria asocitiva (219)

            Nivel de jerarquía (221)

Localización anatómica (223)

SUBSISTEMAS UTILIZADOS EN LA COMPROBACIÓN DE HIPÓTESIS “TOP-DOWN” (225)

Subsistema mejorado de propiedades de coordenadas (226)

            Localización anatómica (228)

Subsistema mejorado de propiedades categoriales (230)

            Localización anatómica (231)

Subsistema de conversión categorial-coordenada (231)

            Localización anatómica (233)

Cambio de atención (233)

            Representaciones preparatorias de formas y caraterísticas esperadas (235)

            Localización anatómica (236)

ACUMULACIÓN DE RESTRICCIONES EN EL SISTEMA VENTRAL (239)

Resumen: identificación de objetos retorcidos (241)

IMAGINERÍA Y PERCEPCIÓN (242)

CONCLUSIONES (244)

 

 

 

 

(247) Cap. 8

Identificación de objetos: cerebros normales y dañados.

EL SISTEMA DE TRABAJO: UN RESUMEN (247)

COMPROBACIÓN DE PREDICCIONES (251)

HABILIDADES VISUALES BÁSICAS (258)

Distancias y ubicaciones diferentes (ángulos visuales) (258)

Identificación de objetos cuando sus imágenes de la información abarcan ángulos visuales diferentes (258)

Identificación de objetos cuando sus imágenes de la información caen en lugares diferentes de la retina (259)

            Variaciones de forma (259)

                        Identificación de objetos cuando están vistos desde puntos distintos (259)

                        Identificación de objetos cuando varía la forma de sus partes (259)

                        Identificación de objetos cuando varía la relación espacial entre las partes (260)

Identificación de objetos según contengan o no partes o características opcionales (260)

            Input empobrecido (260)

                        Identificación de objetos que están parcialmente ocultos (261)

                        Identificación de objetos cuando la imagen esta degradada (261)

                        Identificación de objetos que están muy cercanos (261)

            Instancias específicas (262)

                        Identificación de objetos específicos (262)

                        Identificación de relaciones espaciales específicas (262)

            Objetos y escenas (262)

                        Identificación de objetos múltiples en una fijación única (263)

Identificación de objetos múltiples “automáticamente” (263)

LOS TIEMPOS DE NOMBRAR (264)

Codificación de los estímulos (265)

Contornos degradados (265)

Partes perdidas (265)

Partes rotas (265)

Relaciones espaciales quebradas entre partes (265)

Diferencias en la forma proyectada (265)

Diferencias en color y textura (266)

Diferencias en orientación (267)

Diferencias en tamaño (268)

Diferencias en ubicación (269)

Diferencias en perspectiva (270)

Semejanza de los miembros de la categoría (271)

            Asignación de un nombre (271)

                        Diferencias en tipicidad (271)

                        Diferencias en nivel de jerarquía (272)

            Acceso al nombre (274)

                        Diferencias en la frecuencia del nombre (274)

                        Diferencias en la edad de adquisición del nombre (275)

                        Familiaridad (275)

            Conclusiones (276)

COMPRENSIÓN DE LA DISFUNCIÓN A CONSECUENCIA DE DAÑO CEREBRAL (276)

Quiebre de interacciones entre subsistemas: un caso de estudio (277)

            Paciente (277)

            Prueba de comportamiento (278)

CONCLUSIONES (283)

 

 

(285) Cap. 9

Generación y mantenimiento de las imágenes visuales.

GENERACIÓN DE LA IMAGEN (286)

Generación de imágenes de una sola parte(287)

Generación de imágenes multipartes (291)

Relaciones espaciales coordenadas y categóricas en la generación de imágenes (295)

Comprobación de predicciones críticas: mecanismos perceptuales y generación de imágenes (298)

Imaginería dorsal y ventral (301)

Diferencias funcionales entre dos tipos de imaginería (305)

¿Cuatro tipos de generación de imágenes? (308)

Imaginar disposiciones nuevas de objetos familiares (308)

Imaginar modelos nuevos (310)

Una representación multiescalar (310)

Localización anatómica: lateralización cerebral (311)

Generación de imágenes en el hemisferio izquierdo (312)

Generación de imágenes en el hemisferio derecho (315)

Procesamiento bilateral (317)

Resumen: Generación de imágenes (319)

 

MANTENIMIENTO DE IMÁGENES (321)

Mantenimiento vs generación (321)

“Trozado” durante el mantenimiento de la imagen (321)

Imaginería y “Memoria de trabajo” (324)

Resumen: mantenimiento de imágenes (325)

CONCLUSIONES (325)

 

 

(328) Cap. 10

Inspección y transformación de las imágenes visuales (328)

INSPECCIÓN DE IMÁGENES(328)

Imaginería y percepción (328)

Imaginería intacta y percepción deteriorada (329)

Imaginería y ceguera (334)

Representación geométrica (335)

Imaginería “Pop.Out” (“repentina”) (339)

Imaginería en las preguntas-respuestas (341)

Barrido (scanning) (344)

Resumen: inspección de imágenes (344)

 

TRANSFORMACIÓN DE IMÁGENES VISUALES (345)

Procesos motrices y transformaciones de imágenes (346)

Transformaciones de movimientos-codificados versus movimientos-añadidos (350)

Subsistema de cambio de forma (353)

Reconsideración de las transformaciones incrementadas (354)

Dos tipos de transformación de movimiento-añadido (357)

Rotación y marcos de referencia (359)

Dos estrategias: rotación versus cambio de atención (362)

Transformación de región-limitada y de campo-general (365)

Barrido de imágenes (366)

Aproximación (Zooming) (368)

Transformar el color (370)

Combinar las transformaciones (371)

Localización anatómica (372)

Resumen: transformaciones de imágenes (376)

CONCLUSIONES (377)

 

 

 

(379) Cap. 11

Las imágenes visuales mentales en el cerebro (379)

INFORME ACERCA DE LAS PRINCIPALES HABILIDADES DE LA IMAGINERÍA (379)

Generación de imágenes (383)

Partes individuales (383)

Partes múltiples (384)

Dibujo mental (385)

Inspección de imágenes (385)

            Propiedades de los objetos (385)

            Propiedades espaciales (386)

            Barrido y aproximación (386)

Mantenimiento de imágenes (387)

Transformaciones de imágenes (387)

            Movimiento codificado (387)

            Movimiento añadido (387)

            Campo-general versus región-limitada (388)

            Locus de transformación (388)

 

RELACIÓN CON LA VERSIÓN ANTERIOR DE LA TEORÍA (388)

Memoria visual intermedia (Visual Buffer) (388)

El procesamiento de la FIGURA (389)

El procesamiento del HALLAZGO (389)

El procesamiento de la PUESTA (The PUT process) (392)

El procesamiento de la IMAGEN (392)

El procesamiento de la RESOLUCIÓN (392)

El procesamiento de la BÚSQUEDA (393)

Los procesamientos del BARRIDO, APROXIMACIÓN, LAVADO Y ROTACIÓN (394)

El procesamiento de la RESPUESTA (ANSWERIF) (394)

COMPROBACIÓN DE LA TEORÍA COMO UNA TOTALIDAD: DIFERENCIAS INDIVIDUALES Y ANÁLISIS DE TAREAS (395)

Comparación de tareas (397)

Informar acerca de variaciones perdidas en las diferencias individuales (400)

PRÓXIMOS PASOS (404)

LA RESOLUCIÓN DE LOS DEBATES SOBRE LA IMAGINERÍA (405)

 

NOTAS (409)

...

 

 


 

[1] Utilizo “imaginería” como traducción de “imagery”. En esta obra el sentido de este término es designar al conjunto de las imágenes mentales; no es el sentido que tiene “imaginería” en castellano, ya que se refiere preferentemente a la materialidad de la estatuaria religiosa artesanal pero, en el contexto del presente trabajo, se le propone este sesgo de representación mental. No sirve el término “imaginario” por las fuertes componentes simbólicas que lo integran y que, en el caso de “imagery”, se excluyen para focalizar exclusivamente lo figurativo (icónico-plástico).

[2]  También hay outputs que son imágenes (otras imágenes).

[3]  Lo que yo denomino “atractor”. Pero no se trata de un patrón o modelo estático sino dinámico, del que conservamos en la memoria sus distintas posibilidades formales, en cuanto a puntos de vista y a variedades, ya bien por experiencia acerca de la percepción de ese mismo objeto o por transformación analógica de las posibilidades formales de otros objetos percibidos, que la mente hipotetiza (con el riesgo de equivocarse) como semejantes al que desafía el reconocimiento.

[4] Yo prefiero diferenciar tres momentos en la organización total de la entrada: 1) identificación, que se refiere a la calidad de la propuesta perceptual: cualitativa, figurativa o simbólica; 2) reconocimiento, que se refiere a la configuración dela información como una imagen conforme con algún atractor mnemónico; y 3) interpretación, que es lo que Kosslyn designa como “identificación” y que completa lo que puede saberse de la imagen, lo que requiere la intervención de los sectores del sistema semiótico-cultural que el perceptor considere pertinentes y de los que dispone.