ULLMAN, Shimon (1996)

HIGH-LEVEL VISION.
Object Recognition and Visual Cognition

(VISION DE ALTO NIVEL.
Reconocimiento de objetos y cognición visual)

Cambridge: The MIT Press

 

CONTENIDO

1.      Reconocimiento de objetos
1.1 Reconocimiento basado en la forma
1.2 ¿Qué es reconocimiento?
1.3 Por qué es difícil el reconocimiento de objetos

2.      Enfoques para el reconocimiento de objetos
2.1 Propiedades invariantes y espacios de rasgos
2.2 Partes y descripciones estructurales
2.3 El enfoque del ordenamiento
2.4 ¿Cuál es el enfoque correcto?

3.      El ordenamiento de las descripciones gráficas
3.1 Uso de rasgos correspondientes
3.2 El uso de modelos múltiples para objetos 3-D
3.3 Ordenamiento de descripciones gráficas
3.4 ¿Transformación de la imagen o de los modelos
3.5 Antes y después del ordenamiento

4.      Ordenamiento de contornos de delimitación suave
4.1 El método de la curvatura
4.2 Precisión del método de la curvatura
4.3 Pruebas empíricas

5.      Reconocimiento por la combinación de puntos de vista
5.1 Objetos modelados por combinación de puntos de vista
5.2 Objetos con bordes agudos
5.3 Uso de dos puntos de vista solamente
5.4 Uso de un único punto de vista
5.5 El uso de valores de profundidad
5.6 Resumen del esquema de base
5.7 Objetos con límites suaves
5.8 Reconocimiento de las combinaciones de imagen
5.9 Extensiones del esquema de combinación de puntos de vista
5.10 Evidencia psicofísica y fisiológica
5.11 Conclusiones provisionales: reconocimiento por puntos de vista múltiples

6.      Clasificación
6.1 Clasificación e identificación
6.2 El papel de la clasificación de objetos
6.3 Procesamiento basado en clases
6.4 Uso de prototipos de clase
6.5 Clasificación gráfica
6.6 Evidencia proveniente de la psicología y la biología
6.7 ¿Las clases están en el mundo o en nuestra cabeza?
6.8 La organización de la memoria de reconocimiento

7.      Correspondencia de imagen y modelo
7.1 Correspondencia de rasgos
7.2 Equiparación de contornos
7.3 Métodos de no-correspondencia
7.4 Procesos de correspondencia en la visión humana
7.5 Construcción de modelos
7.6 Compensación por cambios de iluminación

8.      Segmentación y prominencia
8.1 ¿Es factible la segmentación?
8.2 Segmentación ascendente y descendente
8.3 Extracción de estructuras globalmente prominentes
8.4 Prominencia, selección y cumplimiento
8.5 ¿Qué puede lograr la segmentación descendente?

9.      Cognición visual y rutinas visuales
9.1 Percepción del “adentro” y del “afuera”
9.2 Análisis espacial y rutinas visuales
9.3 Conclusiones y problemas abiertos
9.4 Las operaciones elementales
9.5 La recolección y almacenamiento de las rutinas
9.6 Rutinas y reconocimiento

10.  Búsqueda de secuencias y contra corrientes: un modelo del cortex visual
10.1 El esquema de búsqueda de secuencia
10-2 Materialización biológica
10.3 Resumen

A Ordenamiento por rasgos

B El método de curvatura

C Errores del método de curvatura

D Correspondencia localmente afín

E Definiciones

 

 

1 Reconocimiento de objetos

 

[1] Para muchos sistemas de visión biológica, el reconocimiento y clasificación de los objetos es una actividad espontanea y natural.

Por el contrario, el reconocimiento de objetos comunes está todavía más allá de las capacidades de los sistemas artificiales o de todo modelo de reconocimiento propuesto hasta el momento.

 

1.1 Reconocimiento basado en la forma

[2] [3] El reconocimiento por las propiedades de la forma probablemente es el aspecto más común e importante del reconocimiento visual y, en adelante, “reconocimiento del objeto” se considera que significa el reconocimiento visual de los objetos basado en sus propiedades formales.

 

1.2. ¿Qué es el reconocimiento?

¿Qué es “reconocer un objeto” (visualmente)? La respuesta más simple puede ser: “nombrar un objeto visible”. El reconocimiento podría llegar a requerir una clasificación al nivel apropiado y lo que se considere apropiado puede depender [4] de las circunstancias. El producto final importante es la habilidad para recuperar información asociada con un objeto o clase de objetos, que no es evidente en el mismo objeto. El nombre de un objeto es un ejemplo de tal clase de información invisible pero, por supuesto, no el único ejemplo.

Nos centraremos en el reconocimiento de objetos individuales... pueden cambiar su ubicación y orientación en el espacio respecto del observador... cambio que pueden afectar la apariencia del objeto (iluminación, p.e.)... el objeto puede estar parcialmente ocultado... el problema es identificar, por ejemplo, nombrar, al objeto que produce la imagen en cuestión... también trataremos la identificación de una región de la imagen que puede contener un objeto reconocible, el problema de la selección y segmentación.

 

1.3 Por qué es difícil el reconocimiento de objetos

Parecería que el problema podría superarse utilizando un sistema de memoria suficientemente grande y eficiente. Al reconocer, tratamos de determinar si una imagen que vemos actualmente [5] se corresponde con un objeto que hemos visto en el pasado. Se han propuesto diferentes mecanismos, conocidos como las memorias asociativas, para aplicar este enfoque directo del reconocimiento.

¿Han resuelto el problema del reconocimiento del objeto las memorias asociativas? Cuando el sistema ha almacenado una visión representativa, o varias, de cada objeto, una nueva visión recuperaría automáticamente la representación almacenada que más cercanamente se le parece. El problema principal del enfoque directo es que se apoya en una noción simple y restringida de semejanza para medir la distancia entre la imagen del input y cada una de las imágenes previamente almacenadas en la memoria. El uso de una simple comparación de imágenes es insuficiente por sí mismo para dar cuenta de las grandes variaciones entre las diferentes imágenes de un objeto determinado. Una típica medida de la semejanza usada en los modelos de la memoria asociativa es el llamado “Hamming distance” (esta medida se define mediante dos vectores binarios. Supóngase que u y v son dos vectores binarios, o sea, cadenas de 1s y 0s. La distancia de Hamming entre u y v es simplemente la cantidad de coordenadas en que difieren). También se usa, en la comparación directa de imágenes, la llamada norma “L2 entre imágenes de nivel de gris, la cual suma los cuadrados de las diferencias entre los valores de la intensidad de las imágenes en los puntos correspondientes.

Una medida de semejanza, tal como la distancia de Hamming, puede aplicarse no a imágenes sino a una representación más abstracta. Por ejemplo, la imagen de una letra escrita puede registrarse como un vector que especifique propiedades tales como la existencia de bucles cerrados, la cantidad de finales libres y otros semejantes. Los objetos pueden comparase comparando las distancias entre [6] vectores de la descripción abstracta.

Este tipo de medidas de semejanza simple para el reconocimiento puede resultar apropiado para algunas aplicaciones especiales y también para determinados dominios no-visuales, como el olfato (Freeman, 1979). También parece plausible que una memoria a largo plazo pueda tener una parte importante en el reconocimiento del objeto y, en algunos animales simples (paloma, mosca), puede tener incluso una parte dominante.

Este enfoque directo, para el problema general del reconocimiento visual de objetos, es insuficiente, por dos razones. Primero, el espacio de todos los modos posibles de ver todos los objetos reconocibles probablemente es demasiado grande. La segunda y más fundamental razón es que, con frecuencia, la imagen reconocible no será suficientemente semejante a ninguna imagen vista en el pasado. Las cuatro grandes fuentes de esta variabilidad son:

*Punto de vista (viewing position): su variedad (direcciones y distancias) puede dar lugar a imágenes muy diferentes. [7] Imagen 1.1 [8] Cambios en el punto de vista con frecuencia producen grandes diferencias en la apariencia de los objetos.

*Efectos fotométricos: incluyen las posiciones y distribución de las fuentes de luz en la escena, su longitud de onda, los efectos de iluminación mutua causada por otros objetos y la distribución de sombras y especularidades. Habitualmente, no afecta nuestra capacidad para reconocer los objetos en la imagen.

*Colocación de los objetos (object setting): en el escenario natural, los objetos raramente están aislados; por lo general se los ve contra algún fondo, cerca de o parcialmente ocultados por otros objetos. La nueva imagen fracasará al tratar de emparejarse con anteriores imágenes del mismo objeto almacenadas en la memoria.

*Cambio de forma: muchos objetos, tales como el cuerpo humano, pueden mantener su identidad pese a cambiar su forma 3-D. El esquema de reconocimiento tiene que ser capaz de relacionarse con los efectos inducidos por los cambios de forma. El cambio en los objetos puede estar constituido por sub-partes rígidas (el par de tijeras) o por distorsiones no rígidas (las expresiones faciales).

[9] En la investigación, la idea general fue comparar imágenes de diferentes individuos con imágenes del mismo individuo pero bajo diferentes condiciones visuales. De esta manera era posible examinar si las diferencias inducidas por meros cambios en las condiciones visuales eran grandes o pequeñas comparadas con las diferencias entre individuos distintos.

Para comparar imágenes diferentes, es necesario definir una medida de semejanza entre imágenes bi-dimensionales. Una de las medidas de distancia usada en la investigación fue la que se basa en la diferencia de promedios absolutos entre los niveles de intensidad de la imagen en puntos correspondientes. Las imágenes de rostros se normalizaron en tamaño, orientación y posición antes de calcular esta medida. Otra medida permitía alguna distorsión local entre las dos imágenes: el valor de nivel de gris en un punto determinado se comparaba no sólo con una determinada ubicación en la segunda imagen, sino con todos los puntos en un entorno determinado (típicamente 5 x 5) y se seleccionaba el valor mejor emparejado (best-matching) en el entorno.

[10] Otro tipo de medición de la diferencia usó versiones transformadas de las imágenes, obtenidas aplicando a las imágenes diversos filtros lineales, tales como diferencias de gaussianas o filtros DOG (MARR & HILDRETH, 1980), filtros Gabor (DAUGMAN, 1989) y utilizando derivadas direccionales de las imágenes del nivel de gris. Este tipo de filtros parecen intervenir en las etapas del procesamiento primario del sistema visual de los mamíferos y también se lo usa en los sistemas de procesamiento de imágenes artificiales. Finalmente, el estudio comparó también las imágenes obteniendo primero un mapa del borde de cada imagen y después comparando los mapas de contornos resultantes. Este también es un procedimiento estándar en el procesamiento de la imagen.

[11] Una conclusión a partir de estas comparaciones es que no será posible basar un esquema de identificación de rostros en las comparaciones de imágenes simples. La simple comparación, aun en combinación con la pre-normalización usada para el tamaño, la orientación y la posición, resultó insuficiente.

Claramente, [12] los humanos pueden compensar bien las variaciones de iluminación y dirección de la vista y generalizan bien desde una imagen única hacia nuevas condiciones del modo de ver. Al mismo tiempo, esta actuación no puede basarse en mediciones de la diferencia de imágenes simples del tipo examinado en este estudio.

Se ve, en definitiva, que un único objeto puede dar lugar a una gran variedad de imágenes diferentes. El sistema de reconocimiento debe tratar de algún modo estas variaciones y no será suficiente para ello la simple y directa comparación de imágenes.

En varios de los capítulos siguientes nos centraremos en las variaciones causadas por cambios en el punto de vista.

 

 

[13] 2 Aproximaciones al reconocimiento de objetos

 

Para la tarea del reconocimiento visual de objetos se han propuesto una gran variedad de métodos, algunos como modelos de la visión humana, otros como esquemas posibles para la visión de la máquina.

Los diferentes enfoques del reconocimiento pueden clasificarse de diversos modos: los métodos difieren por los rasgos que extraen de la imagen, según que los procesos dependan principalmente de información 2-D o 3-D y de otras muchas maneras. El criterio más significativo para comparar diferentes aproximaciones al reconocimiento es atender a cómo enfocan el tema central del reconocimiento, o sea, la variabilidad a través de los modos de ver.

Todos asumen que el conjunto de modos de ver relativos a un determinado objeto no es arbitrario, sino que contiene ciertas regularidades que el proceso de reconocimiento puede utilizar. El uso eficaz de tales regularidades permitirá al sistema de reconocimiento superar el enfoque directo significativamente, en cuanto a la eficiencia y la capacidad para generalizar ante nuevos modos de ver. Para reconocer, por ejemplo, triángulos de cualquier forma, posición y tamaño no es necesario almacenar en la memoria un gran número de formas representativas. Todas las formas en este conjunto tienen ciertas propiedades en común y estas regularidades pueden usarse en el proceso de reconocimiento.

En los casos de formas geométricas simples, el conjunto de transformaciones que un miembro en la familia de los modos de ver puede experimentar está bien definido. En los casos de las familias de modos de ver que representan objetos 3-D, el conjunto de transformaciones permisibles que los modos de ver pueden experimentar no puede definirse fácilmente, especialmente cuando el objeto puede experimentar [14] transformaciones no rígidas.

Los enfoques del reconocimiento visual de objetos difieren en el tipo de regularidades que se proponen utilizar. Las principales teorías del reconocimiento de objetos se clasifican según su enfoque del problema de la regularidad. Se distinguen tres grandes clases: (i) métodos de las propiedades invariantes, (ii) métodos de la descomposición en partes y (iii) métodos de alineación (alignment). Las teorías de la primera clase asumen que determinadas propiedades simples permanecen invariantes bajo las transformaciones que un objeto pueda sufrir. Este enfoque conduce a las nociones de invariancia, espacios de rasgos, agrupaciones (clustering) y técnicas de separación. La segunda clase depende de la descomposición de los objetos en partes. Lleva a las nociones de descripciones estructurales simbólicas, rasgos jerárquicos y reconocimiento de modelos sintácticos. El primero fue dominante en los primeros días del reconocimiento de modelos y el segundo en los años recientes, tanto en psicología cognitiva como en la visión de computadora. Ambos serían insuficientes. Se presentará una tercera aproximación, llamada el método de la alineación, la que será comparada con las otras dos.

Esta es una taxonomía de las ideas subyacentes no de esquemas existentes.

 

2.1 Propiedades invariantes y espacios de rasgos

[15] Un enfoque común al reconocimiento de objetos ha sido asumir que tienen ciertas propiedades invariantes que son comunes a todos los modos de verlos. Por ejemplo una “medida de densidad”, definida como la relación entre el área aparente y el cuadrado de la longitud de su perímetro, ha sido una característica útil para identificar diferentes tipos de células biológicas. Algunos descriptores de Fourier y momentos (la importancia???) del objeto son otros ejemplos de medidas invariantes que se han propuesto. La idea es definir una cantidad de medidas que, conjuntamente, servirán para identificar cada objeto inambiguamente.

Formalmente, una propiedad de esta clase puede definirse como una función del conjunto de modos de ver el objeto respecto de los números reales. Este enfoque debe establecer, junto con el conjunto de propiedades invariantes propuestas, efectivos procedimientos para extraer estas propiedades. Las medidas de invariancia consideradas en esta sección se supone que dependen exclusivamente de la imagen. Un uso más amplio de “invariantes” en el reconocimiento (Mundy & Zisserman, 1992) incluye cálculos que dependen de la imagen del input y de los modelos internos almacenados o de más de una única imagen de input.

En este esquema, el proceso global de reconocimiento está analizado mediante la extracción de determinada cantidad de propiedades diferentes, seguida de una decisión final basada en estas propiedades.

 

[16] 2.1.1 Un ejemplo: el dominio de los vectores binarios

 

[17] 2.1.2 Espacios de rasgos y funciones de separación

En algunos enfoques, una propiedad definida para un objeto determinado (o clase de objetos) no se espera que permanezca completamente invariante, sólo que permanezca en un rango restringido. Esto conduce naturalmente al concepto de “espacios de rasgos” que se ha usado ampliamente en el reconocimiento de modelos. (Un término mejor hubiera sido “espacios de propiedades”, pero “features spaces” es la terminología aceptada.) Si se han medido n propiedades distintas, cada objeto visto se caracteriza como un vector de n números reales. Así se hace posible representar un modo de ver dado mediante un punto en un espacio de n dimensiones, Rn. El conjunto de todos los modos de ver inducidos por un objeto dado define, de esta manera, un subespacio de Rn.

Otro método común de fragmentar el espacio Rn es mediante un conjunto de funciones lineales de separación (linear separating funtions). [18] De cualquier modo, si las propiedades son prácticamente invariantes, cada objeto estará representado por una “nube” compacta de puntos, con relativamente poca dispersión.

Una teoría psicológica que pertenece a la categoría general de las teorías de propiedades invariantes (pero sin usar la formulación del espacio de rasgos) es la teoría de invariancias de alto-orden de Gibson. Propuso el uso de la razón-cruzada (cross-ratio) de cuatro puntos colineales como una invariante proyectiva que podría usarse en la percepción y postulaba que propiedades invariantes adicionales del objeto podían reflejarse en las llamadas invariancias de “alto-orden” en la matriz óptica. Tales invariancias pueden basarse, por ejemplo, en los gradientes espaciales y temporales de densidad de textura. Un conjunto de invariancias puede seleccionarse por el sistema visual y puede usárselo para caracterizar objetos y clases de objetos.

¿Qué utilidad tiene este método para enfrentar el problema del reconocimiento visual de objetos? Es el método que quizás más se ha estudiado. Ha tenido cierto éxito en determinados dominios bien delimitados: una cantidad de sistemas de visión industrial realizan el reconocimiento simple de las partes industriales basadas en la medición de propiedades globales tales como área, elongación, longitud del perímetro e importancia de la forma. Presenta limitaciones significativas en el problema general del reconocimiento visual de objetos. ¿Qué invariancias simples permitirían distinguir un zorro de un perro? Para formular tales distinciones parece que sería necesaria una descripción más precisa de la forma, antes que un conjunto restringido de invariancias básicas

[19] En resumen, el enfoque de las propiedades invariantes ofrece una solución posible al problema de la regularidad en el reconocimiento de objetos: la requerida correspondencia muchos-a-uno se cumple adecuadamente (comparada con el enfoque directo) calculando las propiedades invariantes antes que almacenando un abarcativo conjunto de modos de ver. En el reconocimiento visual de objetos, no existe una razón determinada para asumir la existencia de propiedades relativamente simples que se preserven a través de las transformaciones que puede sufrir un objeto. Esto no significa que no resulten de utilidad en el reconocimiento de objetos. Puede combinarse útilmente con otros métodos para el reconocimiento y puede cumplir con éxito la tarea de indexar y clasificar.

También es un tema interesante el relativo a la universalidad de las medidas invariantes usadas para el reconocimiento. Uno querría que las mediciones resultantes fueran una marca invariante del objeto. O sea, que las medidas resultantes fueran independientes del punto de vista. Al mismo tiempo, que objetos diferentes produjeran, por supuesto, conjuntos diferentes de mediciones.

Conforme fue resultando, tal conjunto ideal de mediciones es teóricamente imposible. [20] Si un conjunto determinado de medidas invariantes se emplea para el reconocimiento, no existe un conjunto universal de medidas que sea aplicable a todos los conjuntos de objetos. En realidad, el conjunto de medidas utilizado debe adecuarse al conjunto de objetos que se necesita reconocer. Este tema se relaciona con el uso de los procesos de clase-específica en el reconocimiento (Caps. 6 y 10).

 

2.2. Partes y descripciones estructurales

Un segundo enfoque general para el reconocimiento de objetos se basa en la descomposición de los objetos en sus partes constituyentes. Tiene cierta componente intuitiva: los objetos parecen tener partes naturales.

El enfoque de la descomposición en partes asume que cada objeto puede descomponerse en un pequeño conjunto de componentes genéricos. Los componentes son “genéricos” en el sentido de que todos los objetos pueden describirse como combinaciones diferentes de los mismos componentes. La descomposición debe también ser estable, o sea, debe preservarse a través de los diversos modos de ver. El proceso de reconocimiento ubica las partes, las clasifica en los diversos tipos de componentes genéricos y describe los objetos [21] según sus partes constitutivas. [Biederman]

Una ventaja potencial es que la correspondencia muchos-a-uno implicada en el reconocimiento de los objetos comienza a nivel de las partes. Las partes más simples constituyen los ladrillos de construcción para todos los demás objetos, y por ello el reconocimiento de las partes individuales proporciona un ingrediente importante para el reconocimiento de los objetos compuestos. Esto puede proporcionar un ahorro sustancial comparado con el enfoque directo.

 

2.2.1 Las partes en el dominio de los vectores binarios

[22] (Tabla 2.2) El ejemplo simplificado puede servir para considerar dos temas relevantes respecto al uso de las partes en el reconocimiento. Primero, se puede preguntar si el uso de las partes es siempre una buena idea: ¿puede usarse siempre y hacer el problema del reconocimiento más simple? En algunos casos sí y en otros no. El mérito relativo de los diferentes enfoques depende del dominio de objetos a los que se aplican.

[23] Segundo, es valioso observar que la descomposición en partes y el uso de las propiedades invariantes no son mutuamente excluyentes, sino que pueden combinarse. La idea tras tales descripciones es combinar las ventajas de la descomposición en partes con el uso de las propiedades invariantes para clasificar las partes constituyentes. A continuación de la clasificación inicial de los componentes individuales, queda el problema de reconocer el objeto a partir de los componentes constituyentes.

 

2.2.2 Jerarquías de rasgos y reconocimiento de modelos sintácticos

Ha habido dos grandes aproximaciones para esta segunda etapa de combinar las partes en un objeto complejo. Una consiste en tratar de repetir el proceso de descomposición: determinadas partes se descomponen en partes más simples. Alternativamente, algunas partes de bajo nivel pueden identificarse primero y después grupos de partes simples se identifican como formando, juntas, partes de orden superior.

Un ejemplo de una jerarquía de partes simples consiste en detectar segmentos de línea recta como las partes más básicas y después detectar partes de nivel superior, [24] como ángulos y vértices, basados en los segmentos de línea ya detectados. Estas partes pueden combinarse a su vez en estructuras de nivel superior. Estos enfoques se conocen como “jerarquías de rasgos”. Las partes simples del nivel básico se denominan “rasgos” y las estructuras de nivel superior se construyen jerárquicamente. Este enfoque ha estado motivado en parte por hallazgos fisiológicos en el gato y el mono que pueden interpretarse como la extracción, por el cortex visual, de rasgos elementales como fragmentos de bordes orientados y segmentos de líneas.

Muy próximo está también el método de reconocimiento de modelos sintácticos (Fu, 1974). Aquí, también, la primera etapa consiste en la identificación de partes simples en la imagen de entrada, seguida por la agrupación de las partes elementales en otras de orden superior. El énfasis en el enfoque sintáctico está en la construcción de partes de orden superior utilizando métodos tomados en préstamo del análisis sintáctico de los lenguajes formales.

 

2.2.3 Descripciones estructurales

Un segundo enfoque para el paso de las partes a los objetos puede considerarse como una mezcla de la descomposición de partes con el enfoque de las propiedades invariantes, donde las propiedades invariantes se definen usando relaciones entre las partes. El supuesto subyacente es que sería más fácil captar las invariancias del objeto al nivel al que se han identificado las partes. Por ejemplo, el número total de partes de un determinado tipo puede ser una invariante del objeto. Esta es de hecho la forma cómo los perceptrones, que son simples dispositivos para el reconocimiento en paralelo de modelos, han sido usados para reconocer triángulos con independencia de la forma, ubicación y tamaño (Minsky & Papert, 1969). Tales esquemas combinan la extracción de rasgos con los invariantes simples (existencia o falta de determinados rasgos) sin intentar describir las relaciones interpartes.

[25] En otros esquemas, las relaciones entre partes constitutivas juega un papel central para captar las invariantes comunes a todas los modos de ver el objeto. En la letra mayúscula “A”, por ejemplo, pueden variar los detalles en la forma, pero la estructura general usualmente permanece sin cambios; la figura se compone de tres segmentos de línea, dos de las partes se encuentran en un vértice, etc. [atención a la descripción verbal de la figura], y estas propiedades se mantienen para la mayoría de las variantes de la letra. Aquí, también, la descomposición en partes se obtiene primero y, en la siguiente etapa, se definen las invariantes simples en cuanto partes constituyentes. Las invariantes se expresan como relaciones entre dos o más partes, tales como “encima”, “a la izquierda de”, “más largo que”, “continente”, etc. Para usos 2-D, en los que los objetos se limitan a moverse en paralelo respecto el plano de la imagen, las relaciones simples como distancias y ángulos medidos sobre la imagen suelen permanecer invariantes.

En la mayoría de los casos de 3-D, las distancias y los ángulos en la imagen cambian con los cambios en el punto de vista. Para manejarse con objetos 3-D, los esquemas de descomposición de partes tratan de emplear relaciones tales como “conectados juntos”, “mayor que”, “dentro de” y otras semejantes, que [26] permanecerán invariantes en un amplio rango de puntos de vista.

El uso de las relaciones espaciales entre partes y rasgos lleva al sistema a distinguir entre configuraciones que tienen partes similares, pero en ordenamientos diferentes.

Incrementado con las descripciones de relaciones entre las partes, el enfoque de la descomposición del objeto conduce a la noción de las descripciones estructurales. El tipo de reconocimiento que usa estas descripciones estructurales constituye un extendido enfoque para el reconocimiento visual de los objetos. En cuanto modelos psicológicos, la teoría de Sutherland (1968) y el modelo de reconocimiento de formas visuales de Milner (1974) son ejemplos tempranos de teorías de descripciones estructurales aplicadas a la visión humana. Las partes principales, a nivel básico, usadas en ambas teorías son bordes y segmentos de línea. A un segundo nivel, las propiedades invariantes y las relaciones se definen usando, por ejemplo, la cantidad total de partes (tal como la cantidad de segmentos de línea de determinada orientación) y las proporciones de longitud entre pares de líneas.

Quizá el ejemplo mejor desarrollado de un esquema de reconocimiento por descripción estructural es la teoría del reconocimiento por componentes (recognition by componets: RBC) de Biederman (1985). Según este esquema, los objetos se describen a partir de un pequeño conjunto de partes primitivas llamadas “geones” [geons: geometrical ions; -444.1/12]. Estos primitivos son semejantes a los cilindros generalizados usados por Binford (1971), Marr y Nishihara (1978) y Brooks (1981). Incluyen simples formas 3-D tales como cajas, cilindros [27] y cuñas. Los objetos más complejos se describen descomponiéndolos en sus geones constituyentes, junto con una descripción de las relaciones espaciales entre los componentes. El número de geones primitivos se supone pequeño (menos de 50) y los objetos están compuestos habitualmente por un pequeño número de partes (menos de 10).

En todo esquema que descansa en la descomposición en partes es crucial idear un procedimiento confiable y estable para identificar los límites de las partes. De otro modo, el mismo objeto puede producir, bajo puntos de vista poco diferentes, descripciones distintas en cuanto a sus partes constitutivas. En el esquema de Biederman, se utilizan determinadas relaciones “no-accidentales” entre contornos en la imagen para determinar la descomposición en partes. Estas relaciones incluyen, por ejemplo, la colinealidad de puntos o líneas, la simetría y la asimetría, y el paralelismo de segmentos de curva.

Otro esquema que utiliza la descomposición en partes es el “codon”, esquema propuesto por Hoffman y Richards (1986) para la descripción y reconocimiento de contornos. Los contornos se segmentan según la mínima curvatura (the “transversality rule”). Las partes resultantes se describen según un pequeño vocabulario de formas primitivas llamadas “codons”. [Ver, en D. Hoffman, 1998, ps. 84-89, las reglas “de pliegues cóncavos” y “mínima”, que segmenta usando este criterio, sin mencionar el término “codon”]

Los esquemas RBC y el codon son complementarios en cuanto enfatizan aspectos diferentes del problema. Se puede enfocar el problema de la descripción basada en las partes desde dos direcciones: ya bien comenzando por la imagen y estudiando cómo extraer partes útiles o comenzando a nivel del objeto y estudiando qué tipo de partes serían útiles para la descripción del objeto. El esquema de codones comienza desde la imagen y construye partes simples del contorno basándose en propiedades locales, tales como segmentos de concavidad, convexidad e inflexión. El modelo RBC comienza desde el objeto, concentrándose en la cuestión de las partes útiles del objeto y en la descripción de los objetos 3-D respecto de esas partes.

Se ha intentado combinar estos dos niveles en sistemas de trabajo que reconocerían verdaderamente objetos 3-D a partir de sus proyecciones. La idea era comenzar el análisis desde partes simples que pueden identificarse en una imagen de modo directo y, después, progresivamente, agruparlas en partes más complejas y producir eventualmente una descripción completa de los objetos 3-D.

[28] Un ejemplo lo constituye el esquema desarrollado por Connell (1985). Este esquema parte del análisis de los contornos de la imagen. Primero describe los contornos como partes constituyentes y según sus propiedades, utilizando un esquema de representación desarrollado por Brady y sus colaboradores (1984). Después generan constructos de nivel superior que corresponden, eventualmente, a objetos completos. La descripción resultante puede llegar a estar muy elaborada. Formalmente, la descripción tiene una estructura gráfica en la que los nodos representan componentes y los arcos etiquetados representan relaciones entre partes. El reconocimiento puede continuar después relacionando los grafos generados a partir de la imagen con estructuras de grafos semejantes almacenadas en la memoria.

Hay importantes diferencias entre los diversos esquemas de descripción estructural propuestos, pero todos comparten una idea básica: las regularidades en las familias de vistas que corresponden a un objeto (o clase de objetos) pueden captarse mejor mediante la descomposición en partes y la descripción de las configuraciones de partes. Los diferentes esquemas difieren en el tipo de partes que usan (tales como contornos, fragmentos de superficie (surface patches) o volúmenes primitivos), pero todos intentan emplear partes simples, de modo que la identificación de una parte sería considerablemente más simple que el reconocimiento del objeto complejo. Al objeto entero se lo reconoce en una segunda etapa según relaciones espaciales entre las partes ya clasificadas.

Para diversos objetos, el reconocimiento mediante el ordenamiento de partes simples parece ser natural. [29] (Figura 2.2; un ejemplo de una descripción estructural detallada [el avión]) [30] También es cierto que, como afirman Palmer (1977), Hoffman (1983) y Biederman (1985), el observador humano encuentra fácil, a veces, identificar las partes de un objeto, aunque el objeto no sea familiar.

La identificación de las partes del objeto, cuando son claramente diferenciables, tiene algunas claras ventajas, pero también serias limitaciones. El primer problema es que la descomposición en partes genéricas con frecuencia se aproxima considerablemente a la caracterización del objeto en cuestión. Por ejemplo, un perro, un zorro, un gato y muchos otros animales se descomponen, en sus partes principales, de modo semejante. Estos animales no se distinguen entre sí por un ordenamiento diferente de las partes, sino por detalladas diferencias de forma en ubicaciones concretas (como el hocico). Quizá pueda decirse que estos animales no pueden diferenciarse a determinada “categoría de nivel básico”. Sin embargo, la separación en dos etapas, por sí misma, no resuelve el problema de identificación: todavía se requiere una explicación acerca de cómo se identifican, eventualmente, los objetos y esta identificación requiere descripciones precisas de las formas.

Una segunda limitación es que muchos objetos no se descomponen naturalmente en una unión de partes claramente diferentes. ¿Cuál es, por ejemplo, la descomposición de un zapato, una hogaza de pan o un gato dormido?

[31] Finalmente, la identificación en la imagen de las partes principales de un objeto puede ser una tarea difícil.

Parece pues que, para muchos objetos, el intento de construir una descripción estructural termina en fuertes compromisos, tomados demasiado pronto, en el proceso de reconocimiento. Estas limitaciones no significan que la descomposición por partes y las descripciones estructurales no sea útiles para el reconocimiento. De hecho puede tener un papel muy útil, en especial en aspectos de la clasificación de objetos (Capítulo 6) y en el establecimiento de correspondencia entre la imagen y el modelo almacenado (Capítulo 7). Queda totalmente claro, sin embargo, que este enfoque, por sí solo, es insuficiente y no resulta adecuado para la identificación de objetos.

 

2.3 El enfoque de la alineación (The Alignment Approach).

La idea básica de este enfoque consiste en compensar las transformaciones que separan el objeto visto y el correspondiente modelo almacenado, y entonces compararlos.

[32] De modo más general, el enfoque de la alineación supone que, por cada modelo Mi almacenado en la memoria, existe un conjunto de “transformaciones permitidas” Tij que puede sufrir el modelo, tales como cambios de escala, posición u orientación en el espacio. El reconocimiento puede considerarse como la búsqueda de un modelo y una transformación particulares que maximizará alguna medida de encaje F entre el objeto y un modelo.

Supóngase que se requiere un sistema de reconocimiento de letras para reorganizar las letras en el alfabeto sin tener en cuenta posición, tamaño ni orientación.

Un simple esquema de alineamiento procedería del [33] siguiente modo. Por cada carácter, se almacenaría en la memoria una instancia del carácter. Dado un carácter de entrada, el sistema pasaría primero por la fase de alineamiento. El objetivo de esta etapa es “deshacer” las transformaciones de desplazamiento, escala y rotación. Esto puede realizarse aplicando al carácter transformaciones de compensación. Por ejemplo, para “deshacer” un posible desplazamiento, puede calcularse el centro de la masa de la entrada y el carácter desplazado, de modo que el centro de su masa coincida siempre con una ubicación predeterminada fija. Así, los caracteres que difieren en su posición en la imagen de entrada se “re-transforman” en una ubicación canónica. De modo semejante, la escala puede compensarse calculando, por ejemplo, el área de la corteza convexa (convex hull) del carácter. (El convex hull es el envoltorio convexo más pequeño que rodea al carácter; ver Preparata & Shamos 1985.)

La compensación de los cambios de orientación es más complicada. La orientación, para algunas letras, puede determinarse sobre la base de la simetría bilateral, como en el caso de (A, H, M) y otras. Varios caracteres tienen un segmento de línea que, en la orientación correcta, se orienta verticalmente como en (B, D, E) u horizontalmente, como en (L, T, Z) y pueden usarse para determinar un pequeño número de orientaciones probables. La detección de simetría bilateral y la orientación de los segmentos de línea componentes, junto con el cálculo del centro de la masa y el área de la corteza convexa, se construyen durante la etapa de alineación. Después de haberse compensado desplazamiento, escala y orientación, la entrada “normalizada” se proyecta (posiblemente en paralelo) frente a las representaciones almacenadas de los diferentes caracteres. Dado que las transformaciones ya han sido removidas, la etapa de proyección se espera que sea relativamente directa. En esta etapa, un mecanismo semejante a la memoria asociativa puede ser suficiente para comparar la entrada transformada en paralelo con los modelos almacenados. Debe observarse, sin embargo, que aún siguiendo el alineamiento, la proyección final puede no ser tan simple como, por ejemplo, la correlación 2-D entre los contornos. Las diferencias entre distintas letras, tales como O y Q, puede ser un elemento pequeño y crucial del contorno. Algunas partes del modelo pueden, por tanto, contribuir más que otras a la calidad general de la proyección.

[34] El uso de la alineación para el reconocimiento ha estado habitualmente restringido a cambios en la posición, orientación y escala en el plano de las imágenes 2-D. Su uso para objetos más generales da lugar a numerosas dificultades.

Los próximos capítulos describen la aplicación del reconocimiento por alineamiento a los objeto 3-D complejos.

El énfasis en la discusión estará sobre la selección de la apropiada transformación de compensación.

 

2.4. ¿Cuál es el enfoque correcto?

[35] Como veremos con mayor detalle, aspectos de los diferentes métodos pueden combinarse fructíferamente, en un esquema único de reconocimiento.

 

[36][37]

 

3. El alineamiento de las descripciones gráficas

 

La idea general es la siguiente. Dada una imagen de entrada y un modelo candidato, primero se establece una correspondencia entre ellos. Esto significa que un pequeño número de rasgos (que incluyen los rasgos y líneas puntuales (pointwise)) se identifican como rasgos de equiparación en la imagen y en el modelo. Basada en los rasgos correspondientes, la transformación que separa el modelo de la imagen se determina unívocamente. La transformación recuperada se aplica después al modelo. La imagen generada por el modelo transformado se compara con el objeto visto. Basada en el grado de correspondencia, el modelo candidato se selecciona o rechaza. Para aceptarlo, la correspondencia debe estar lo suficientemente próxima y también debe ser mejor que los otros modelos que compiten.

 

3.1 Uso de los rasgos de correspondencia para recuperar la transformación

Para ilustrar cómo se realiza la alineación, supóngase inicialmente que tres puntos, uno rojo, uno verde y uno azul, se han pintado sobre cada objeto, en el conjunto cuyo sistema de reconocimiento se quiere conocer. La razón de este supuesto es simplemente dejar en claro que necesitamos un número de rasgos identificables que puedan equipararse confiablemente en la imagen y en el modelo almacenado. [38] La exacta ubicación de los puntos sobre la superficie del objeto es indiferente. Sólo deben ser visibles (o sea, no tapados) y no deben ser colineales. Llamaremos a estos puntos los “puntos de anclaje” del objeto.

Por cada objeto Oi  en la colección de objetos a reconocer, un modelo interno, Mi , se construye y almacena. El modelo se basa simplemente en una imagen del objeto desde un determinado punto de vista. Este modelo se usará para reconocer al objeto desde un rango de direcciones de la mirada en torno a la dirección de la mirada original. La imagen usada para construir el modelo es una proyección ortográfica del objeto sobre el plano de la imagen. (Ver el apéndice E para las definiciones de ortográfico así como de otros tipos de proyección.) Incluye la proyección de los límites del objeto, así como de los contornos internos y la posición de los tres puntos de anclaje. El modelo también contiene información tridimensional: se supone que se conocen los valores de profundidad de los puntos usados en el modelo (los contornos y los puntos de anclaje).

Tenemos una visión dada V de un objeto desconocido y el problema consiste en decidir, respecto de un modelo dado Mi , si V se equipara o no con Mi (o sea, si V es una vista posible de Mi ).

[39] El aspecto crucial es que el modelo Mi  y la vista V pueden alinearse de una única manera dadas sólo las coordenadas (P1, P2, P3) (conocidas en el modelo) y p1, p2, p3, (recuperadas desde la imagen). En otras palabras, el desplazamiento D, la rotación en el espacio R y el ajuste de escala S, que posiblemente relacionan Mi con V, sólo están determinadas sobre la base de los tres puntos correspondientes (apéndice A). Esta transformación se aplica ahora a Mi. Siguiendo la transformación, Mi y V estarían en correspondencia completa. A diferencia de la situación original, Mi y V al seguir las transformaciones estarían en completo acuerdo como imágenes 2-D. Si V no es una instancia de Mi , entonces Mi y V al seguir las transformaciones de compensación no estarían en correspondencia. Así, el proceso de reconocimiento se descompone en dos etapas: un alineamiento inicial, seguido de una etapa de equiparación. Al seguir el alineamiento, la semejanza entre el objeto y el modelo se incrementa significativamente y una equiparación métrica relativamente directa puede determinar el modelo adecuado.

Las imágenes 3.1, 3.2 y 3.3 muestran un ejemplo de utilización de este método.

[40] Figura 3.1 (y comentarios)

[41] Figura 3.2

[42] Figura 3.3

[43][44] (siguen comentarios)

 

3.2 El uso de modelos múltiples para objetos 3-D

La diferencia más importante entre el alineamiento de objetos sólidos 3-D y el de objetos planos se debe a la auto-oclusión: diferentes aspectos del objeto son visibles desde diferentes puntos de vista y por esto algunos contornos y también los rasgos usados para el alineamiento (las “claves de alineamiento”) no serán visibles desde todas las direcciones.

Hay dos enfoques posibles para el problema de alinear modelos 3-D. Uno es mantener un único modelo 3-D para cada objeto y usar las transformaciones 3-D recuperadas en la etapa de la alineación para transformar el modelo en alineamiento con el objeto visto.

[45] Imagen 3.4

[46] Una posibilidad alternativa es almacenar una cantidad de modelos y una cantidad de claves de alineamiento asociadas a ellos, que representen al objeto desde puntos de vista suficientemente distintos. Cada modelo será ahora responsable de un rango de orientaciones desde el cual es visible la clave de alineamiento. Para un sistema tal como el del cerebro, que parece tener una capacidad de almacenar una gran cantidad de patrones y recuperarlos de modo paralelo, éste es probablemente un arreglo (tradeoff) habitual.

En la primera de estas alternativas, el modelo está verdaderamente centrado en el objeto y es independiente de la mirada (Marr & Nishihara, 1978). En el segundo, la representación depende de la mirada, ya que se usará una cantidad de modelos diferentes del mismo objeto desde diferentes posiciones de la vista. Se espera, sin embargo, que sea insensible a la mirada (view-insensitive) ya que las diferencias entre las vistas se compensan parcialmente por el proceso de alineamiento.

[47] Las imágenes 3.5, 3.6 y 3.7 muestran ejemplos del reconocimiento por alineamiento aplicado a objetos sólidos 3-D. El esquema usó una cantidad de modelos para cada objeto 3-D, representando cada uno el objeto desde un enfoque diferente.

Cada modelo individual consistió en un conjunto de contornos, junto con sus coordenadas 3-D.

Al llevar a cabo el reconocimiento por alineación (aplicada a objetos sólidos 3-D), la etapa de correspondencia emerge como la parte más difícil y consumidora de tiempo. Para resolver el problema de correspondencia, o sea, la equiparación de los rasgos de la imagen y los del modelo, puede tomarse dos enfoques. El primero consiste en procesar varios pares distintos y después seleccionar el que produce la mejor correspondencia entre la imagen y el modelo transformado.

[48] Figura 3.5

[49] Figura 3.6

[50] Figura 3.7

[51] Una alternativa al enfoque de la búsqueda de correspondencia consiste en tratar de obtener una correspondencia única de la imagen al modelo. Un modo de reducir la cantidad de correspondencias posibles a considerar es etiquetar los diferentes puntos de rasgos, tales como un ángulo, inflexión, centro de globo (blob-center) y otros semejantes. Otro método de reducir la cantidad de posibles correspondencias es realizar una etapa de alineamiento grueso.

[52] Conviene observar que la correspondencia puede establecerse no sólo entre rasgos de puntos-guía sino también entre rasgos lineales que, en ocasiones, son más fáciles de identificar y equiparar. Un rasgo lineal es una línea recta cuyos extremos no pueden identificarse confiablemente. Si los extremos pueden identificarse, entonces el segmento de línea equivale simplemente a un par de rasgos de puntos-guía.

Parece que, en cuanto sistemas utilizados que pueden realizar verdaderamente el reconocimiento de objetos 3-D (en dominios limitados), el enfoque de la alineación, según diversas variedades, ha llegado a ser el método dominante. En relación a los tres grandes enfoques que he listado, parece que se ha producido un claro desplazamiento desde un énfasis puesto en el uso de mediciones de invariantes y espacios de rasgos, a las descripciones estructurales y a los métodos de alineación.

 

 

[53] 3.3. La alineación de descripciones gráficas

 

3.3.1 El añadido de descripciones abstractas

Es posible combinar las grandes ventajas de los enfoques de la descomposición de partes y de las propiedades invariantes con el enfoque del alineamiento.

Considérese, por ejemplo, el esbozo de gallo en la imagen 3.8.

[54] Figura 3.8

Puede imaginarse una “etiqueta” afirmando “línea sinuosa” colocada sobre el contorno de la cresta del gallo. Esta descripción es “abstracta” ya que es menos específica que la propia imagen original.

[55] Hay dos diferencias en el modo en que las descripciones abstractas se utilizan en el esquema de alineamiento, frente al enfoque de la descripción estructural. Primero, en el método de alineación las descripciones abstractas no reemplazan las descripciones de bajo nivel; se les añaden. A diferencia del esquema de descomposición en partes, en el esquema de la alineación la descomposición en partes no se requiere completa. Las etiquetas abstractas pueden asociarse con algunas ubicaciones, mientras otras partes del objeto pueden permanecer desarticuladas, no separadas en partes y sin asignarles ninguna categoría ni estar descriptas por ningún descriptor abstracto. Debido a la etapa de alineación, estas partes desarticuladas se espera que produzcan (siguiendo el alineamiento) una buena correspondencia con el modelo almacenado.

La segunda diferencia es que en el método de alineación la descripción puede denominarse “gráfica”. Está mucho más cerca de la imagen, comparada con las descripciones estructurales. En las descripciones estructurales, las relaciones espaciales, como las formas de las partes, se describen usando un conjunto limitado de categorías tales como “encima”, “entre”, “cerca” y otras semejantes. En el enfoque de la alineación, por el contrario, las relaciones espaciales no están categorizadas. Por el contrario, se preserva la verdadera posición de las partes y etiquetas. La descripción resultante tiene, por tanto, una estructura semejante a la imagen en la que las etiquetas están [56] asociadas a ubicaciones determinadas.

El esquema combinado, que usa tanto alineamientos como descripciones abstractas, puede describirse como “alineamiento de descripciones gráficas.” Este nombre implica tres componentes. Primero, es un método de alineación. Segundo, usa también descripciones abstractas. Tercero, estas descripciones se usan gráficamente: están asociadas con lugares específicos en vez de usar descripciones según categorías de relaciones espaciales. Tales descripciones pueden rotarse, cambiarse de escala, alargarse, etc., antes de la etapa del contraste. El proceso de reconocimiento de objetos en su totalidad es, en el enfoque de la alineación, menos simbólico, más gráfico y más cercano a los procesos visuales de más bajo nivel que el enfoque de las descripciones estructurales.

 

3.4 ¿Trasformar la imagen o los modelos?

Es posible transformar el objeto visto o el modelo almacenado o ambos. Aplicar las transformaciones de alineación solamente al objeto visto tiene una importante ventaja: se aplica sólo [57] una vez. Todos los modelos permanecen inmodificados. Esto puede hacerse si los diversos modelos están almacenados en la memoria de una forma “canónica” común. Una forma canónica puede definirse de modo análogo para la alineación basada en la orientación dominante, además de los puntos de anclaje. En ambos casos, sin embargo, el uso de las formas canónicas para los modelos tiene sus inconvenientes. Surge una complicación si se desea reconocer al mismo objeto usando diferentes claves de alineación. Esta redundancia es útil, por ejemplo, para tratar con la oclusión.

Una alternativa sería aplicar una transformación de alineamiento para cada uno de los modelos potencialmente importantes. En este caso, los modelos no necesitan estar almacenados de modo canónico, ya que cada uno se transforma individualmente para alinearse con el objeto visto. Esto también tiene la ventaja de que diferentes transformaciones pueden aplicarse a diferentes modelos. Estas transformaciones individuales añaden flexibilidad al proceso de emparejamiento, pero al costo de un incremento del esfuerzo calculatorio.

Dos reflexiones adicionales. Primero, [58] no es necesario adoptar un enfoque terminante; es también posible una combinación de ambos.

Segundo, pueden mantenerse las transformaciones específicas al objeto de manera simple, en vez de realizar la completa transformación verídicamente establecida para la forma del objeto 3-D. Cuando la discrepancia entre una visión particular de un objeto y sus modelos ya almacenados en la memoria se hace demasiado grande para superarla usando estas transformaciones restringidas, puede añadirse un modelo adicional del objeto a la biblioteca de modelos. La transacción aquí se da entre las exigencias de la memoria y la complejidad del cálculo: cuanto más simple se hace el cálculo, más se incrementan las exigencias de almacenaje y también se degrada la capacidad del sistema de realizar generalizaciones para nuevas miradas.

 

3.5. Antes y después del alineamiento

Las últimas secciones esbozaron la noción de descripciones por alineación de figuras (aligning pictorial descriptions). Para poner en perspectiva la etapa del alineamiento, esta sección enumerará brevemente algunas de los otros pasos que intervienen en el [59] proceso de reconocimiento y describirá los problemas que originan.

 

Selección. Entendemos por “selección” (algunas veces llamada “señalamiento” [“cuing”]) identificar en la imagen una ubicación que posiblemente contenga un objeto de interés (sin delinear el objeto que se va a reconocer) Un observador humano raramente barre la totalidad de la escena de manera sistemática. Con frecuencia, los objetos de interés atraen de algún modo nuestra atención y el procesamiento subsiguiente parece concentrarse en esas ubicaciones. El sistema visual humano parece incapaz de extraer propiedades relacionales entre los rasgos en la etapa inicial, de pre-atención, de semejanza (parallel). En vez de eso, la selección puede basarse en alguna medida sobresaliente definida por diferencias locales de contraste, color, tamaño, orientación, etc.

 

Segmentación. Entiendo por “segmentación”, en este contexto, la delimitación de un subsector de la imagen al que se aplicarán subsiguientes procesos de reconocimiento. Los esquemas de segmentación han sido investigados extensamente en el campo del procesamiento de las imágenes, pero sus objetivos son habitualmente más ambiciosos de lo que se requiere en el reconocimiento por alineación. Por ejemplo, con frecuencia intentan segmentar la imagen completa, como opuesta a la exacta región de interés. Para el reconocimiento por alineación, la mayor exigencia, en la etapa de la segmentación, es que la clave de la alineación se seleccione de una región que tenga la posibilidad de corresponder a un único objeto. La delineación exacta del objeto completo no es de mayor importancia en esta etapa.

 

Descripción de la imagen. La siguiente etapa consiste en la extracción de información que se usará para contrastar el objeto visto con los modelos-de-objetos almacenados. La mayoría de los esquemas de reconocimiento proponen que el objeto visto se describa para este propósito usando [60] contornos 1-D, pedazos de superficie 2-D o descripciones volumétricas 3-D.

Una pregunta interesante, en esta etapa, es en qué medida la descripción del objeto visto descansaría en información 3-D detallada. Es deseable que el proceso de reconocimiento no dependa fundamentalmente de detallada información 3-D, aunque tal información puede usarse si está disponible.

El punto principal es que incluso en el enfoque de la alineación que tiene una naturaleza más gráfica que los esquemas alternativos, la comparación del objeto visto y los modelos almacenados no se realiza entre imágenes en bruto, sino que sigue etapas de procesamiento que producen patrones más abstractos. Por esto, una parte del procesamiento es la creación de estas descripciones internas que se manipulan y comparan durante el proceso de reconocimiento.

 

Extracción de una clave de alineamiento. La clave de alineamiento es la información usada para poner el objeto visto y los modelos internos en alineamiento. Por ejemplo, si tiene una orientación claramente definida, esta orientación puede usarse para el alineamiento. Si el objeto carece de orientación la clave de alineamiento puede componerse con puntos destacados. [61] En algunas versiones alternativas no se requiere la extracción de claves de alineamiento.

 

Alineamiento. Esta etapa pone al objeto en registro con los objetos potencialmente contrastables. Como se sugirió antes, puede dividirse la etapa de alineamiento en dos pasos. En el primero, el objeto visto se pone en correspondencia con una gran cantidad de modelos almacenados en la memoria según alguna forma canónica. El segundo se compone de alineamiento individuales: modelos diferentes se alinean a sí mismo individualmente respecto al objeto visto.

 

Indexación. Continuando con el alineamiento, debe establecerse el grado de correspondencia entre el objeto visto y un modelo almacenado. Un importante problema surge cuando es grande la cantidad de modelos almacenados. ¿Será necesario realizar el alineamiento y el contraste para cada uno de ellos individualmente?. Algunos esquemas hacen preceder el contraste final por una etapa llamada “indexación”. El objetivo de esta etapa es usar algún criterio simple para excluir los modelos improbables y obtener un conjunto menor de candidatos posibles. Otros esquemas incluyen, en esta etapa, un orden de rango de los modelos, de modo que primero se intenta el contraste con los más posibles. Este uso de la indexación está muy relacionado con la noción de clasificación. Durante la clasificación, un objeto es asignado a un clase general (tal como “una casa”, “un auto”, “un rostro”) o a un pequeño número de clases posibles.

 

Contraste. A continuación de la etapa del alineamiento, se espera que el modelo correcto y el objeto visto alcancen el mejor acuerdo, pero habitualmente existirán todavía diferencias entre ellos. Se requiere una medida del grado de contraste para decidir cuál de los [62] modelos se parece más al objeto visto. Mencionaré sólo tres requisitos generales para esta medida. Primero, las contribuciones de las diferentes partes del objeto a la calidad del contraste puede tener diferente peso. Algunas partes pueden ser de pequeño tamaño, pero, no obstante, cruciales para definir al objeto...

Segundo, al alinear las descripciones figurativas, puede obtenerse un contraste a diferentes niveles, tales como los contornos subyacentes del objeto o a nivel de descriptores más abstractos.

Finalmente, la decisión respecto del modelo con mejor contraste estará afectada por factores distintos de la semejanza de formas. El grado de contraste puede tener en cuenta, por ejemplo, el quantum de distorsión que se requirió para poner en registro al modelo y al objeto. La selección del modelo adecuado también puede estar sesgado, por ejemplo, por expectativas previas y por la proximidad con otros objetos en la escena.

 

 

[63]4. El alineamiento de contornos de límites uniformes

 

En la etapa de predicción [de la apariencia del modelo al seguir la aplicación de la transformación requerida] es más difícil trabajar los objetos con superficies de límites uniformes; la predicción se hace considerablemente más compleja que la de predecir la apariencia de objetos con contornos de límites aguzados.

El problema de predecir la nueva apariencia de un objeto pulido a continuación de una rotación se ilustra en  la figura 4.1. En esta figura y en la exposición subsiguiente haremos uso de la siguiente terminología. Dado un objeto O y un punto de vista v, el perfil externo (rim) es el conjunto de todos los puntos de la superficie de un objeto cuya normal es perpendicular la eje de visión (Koenderink & Van Door 1981). La importancia de los puntos del perfil en el objeto es que (asumiendo las proyección ortográfica, ver apéndice E) generan los contornos que limitan al objeto en la imagen. A este conjunto también se lo llama generador de contorno (Marr 1977). Una silueta es una imagen generada por la proyección ortográfica del perfil externo. La diferencia, por tanto, consiste en que el perfil es un conjunto de puntos sobre el objeto y la silueta es la imagen generada por los puntos del perfil. En el siguiente análisis se asume que cada punto a lo largo de la silueta está generado por un único punto del perfil. Es un punto técnico que excluye las situaciones especiales en las que dos puntos del perfil del objeto están exactamente alineados y se proyectan sobre un único punto en la imagen. Un mapa del borde de un objeto habitualmente contiene la silueta, generada por su perfil y también contiene otros bordes, como los bordes internos generados por los cambios en las propiedades de reflectancia o color de diferentes regiones del objeto.

[64] Figura 4.1

[65] Cómo predecir la nueva apariencia

[66][67] 4.1 El método de curvatura

[68] Figura 4.2

[69][70] 4.2 Precisión del método de curvatura

[71][72][73] Rotación en torno al eje vertical

[74] Propiedades del error

[75][76][77] 4.3 Prueba empírica

[78] 4.3.1 Construcción del modelo

[79][80][81][82][83] 4.3.2 Aplicación del método de curvatura a imágenes reales

Un sistema prototipo del reconocimiento de objetos usando alineamiento, que predice la apariencia de los objetos usando el método de curvatura, fue implementado por R. Basri. Imágenes conteniendo 512 x 512 puntos (pixels) se obtuvieron con una cámara de TV. Los mapas de bordes de las imágenes se crearon usando el detector de bordes de Canny (Canny 1986). Los modelos de dos autos de juguete, un VW y un Saab, fueron montados sobre un aparato mecánico, para permitir rotaciones controladas sobre los ejes vertical y horizontal. El sistema construyó primero modelos de los objetos que abarcaban valores de profundidad y radio de curvatura con se describen en la sección 4.3.1.

Los modelos pueden construirse en este sistema usando ya bien tres imágenes que usan rotaciones sobre el eje de las Y o cinco imágenes que usan [84; Figura 4.7][85] rotaciones sobre los ejes de la Y y de la X. El modelo interno puede usarse, por tanto, para predecir la apariencia del objeto a consecuencia de la rotación, traslación y cambio de escala 3-D, usando el método de curvatura descrito en la sección 4.1.

Se crearon modelo de los dos autos, el VW y el Scaab (figura 4.8). Se seleccionaron estos dos autos en particular como prueba porque proporcionan ejemplos de objetos complejos limitados por superficies lisas. Además los dos son de forma muy semejante. Para distinguirlos, el sistema de reconocimiento debe ser capaz de hacer discriminaciones precisas de formas. Es interesante observar al respecto que para observadores humanos la tarea no es particularmente desafiante; la discriminación comprobable puede obtenerse después de un breve aprendizaje.

Por cada modelo de auto, se tomaron tres imágenes, con α y β (los ángulos entre las imágenes sucesivas, ver sección 4.3.1) siendo de ±30º sobre el eje de las Y. Para cada auto, el procedimiento produjo un único modelo, abarcando el mapa de los bordes de la imagen central, junto con la profundidad estimada y la curvatura a lo largo de los bordes. Se encontró que un único modelo de este tipo producía predicciones precisas de la apariencia del objeto con 60º de rotación sobre el eje de la Y.

La figura 4.9 muestra cuatro imágenes, dos de cada auto, giradas ±15º. En cada caso, la imagen del auto rotado está superpuesta sobre el original, no rotado. Puede verse que tales rotaciones ya crean deformaciones sustanciales de las imágenes, de las que el proceso de reconocimiento debe dar cuenta.

La figura 4.10 muestra los resultados del alineamiento de los modelos con las imágenes. Una aproximación a la transformación (rotación, translación y cambio de escala) que separa el modelo y el objeto visto puede proporcionarse mediante diversas rutinas de alineamiento, tal como usando los tres puntos correspondientes. El modelo interno se transforma, al usar las transformación de alineamiento, de acuerdo con el método de curvatura descrito antes. La figura muestra el resultado de superponer el modelo transformado sobre la imagen. Para cada auto, se usa un único modelo interno para correlacionar las imágenes tomadas [86; figura 4.8][87; figura 4.9][88] desde diferentes direcciones de mirada. Puede verse que, al usar este procedimiento de alineamiento, un único modelo proporciona en encaje preciso para el objeto visto desde diferentes posiciones de mirada.

La figura 4.11 muestra el resultado de hacer corresponder los dos autos con modelos incorrectos. En cada casi, el modelo fue manipulado para obtener la mejor correspondencia entre el modelo y la imagen. La discrepancia entre la imagen y el modelo alineado es significativamente más alta que en la figura 4.10. Una simple distancia métrica entre los contornos de la imagen y el modelo alineado fue suficiente para  seleccionar el modelo correcto. La figura 4.12 muestra el resultado de la correspondencia de los dos autos cuando no se usa la información acerca de la curvatura. Puede verse que, mientras los contornos internos se alinean perfectamente, los contornos de oclusión ya no se corresponden tan bien como lo hacen cuando se usa la curvatura. Los desvíos no son grandes, pero hace la distinción precisa entre dos objetos semejantes considerablemente más difícil. Conviene observar que las predicciones precisas se obtienen pese al hecho de que los objetos tienen formas 3-D complejas y que se usan burdas aproximaciones al radio de curvatura, al usar tres imágenes.

El método de curvatura descrito antes no se restringe a los contornos originados por parches de superficies elípticas. Pueden manejarse contornos originados a partir de parches hiperbólicos, mientras los parches sean visibles. Si, sin embargo, un parche está auto-ocultado, se observa un nuevo aspecto del  objeto y deberá usarse un modelo adicional. (En un parche de superficie elíptica, las dos grandes curvaturas tienen el mismo signo, las dos son cóncavas o convexas, como la superficie de un huevo. En un parche hiperbólico, la curvatura en una dirección es positiva y en la dirección ortogonal es negativa, como en el interior de un toro. El tratamiento de los parches hiperbólicos está demostrado en la figura 4.13. Se preparan analíticamente modelos de tres toros con radio diferente. Los modelos se contrastan con una imagen que contiene los toros en varias posiciones y orientaciones. Puede verse que aunque los puntos de los círculos interiores de los toros vienen de parches hiperbólicos, su predicción es todavía precisa.

[89; figura 4.10]

[90; figura 4.11]

[91; figura 4.12]

[92; figura 4.13]

[93] En resumen, el método de la curvatura puede usarse para predecir la nueva apariencia de un objeto con superficies lisas según una transformación de la semejanza (rotación, traslación y cambio de escala 3-D) El método usa la curvatura de la superficie 3-D a lo largo de los contornos del objeto. Esto causa que un único parámetro, la magnitud de los vectores de curvatura en esos puntos, sea suficiente para predecir la nueva apariencia del objeto a causa de una rotación sobre cualquier eje dado. Tres imágenes son en principio suficientes para aproximar el radio de curvatura para la mayoría de los puntos del contorno y cinco puede usarse para estimar los componentes rx, ry, independientemente.

Se observó que el esquema aplicado daba resultados precisos para grandes transformaciones. Para abarcar todas las vistas de un objeto dado, el objeto se representa en este esquema no mediante un único modelo interno, sino mediante una cantidad de modelos, cada uno cubriendo un rango de puntos de vista potenciales. Los resultados muestran que sólo una pequeña cantidad de tales modelos se requieren para predecir la nueva apariencia de un objeto desde todos los puntos de vista.

El modelo de curvatura puede usarse por propio derecho tal como se lo describe en este capítulo. También puede usárselo indirectamente, como una parte de un esquema que no utiliza explícitamente información 3-D, sino que acude al uso de pequeños conjuntos de imágenes 2-D. Este método, la combinación lineal de imágenes, se describe en el próximo capítulo.

 

 

[94][95] 5 Reconocimiento por la combinación de vistas

[...][154] 5.11 Conclusiones provisionales: reconocimiento por vistas múltiples.

Hasta aquí, el foco de la discusión estuvo centrado en la identificación de objetos 3-D individuales.

Reconocimiento usando vistas múltiples. Las vistas que abarcan la representación de un objeto único no son una mera colección de vistas [155] independientes 2-D del objeto. En el enfoque de reconocimiento directo, los objetos también están representados por vistas múltiples, pero el reconocimiento se basa en la vista con mejor correspondencia. Por el contrario, en el enfoque de vistas múltiples (incluida la combinación de vistas y el esquema RBF) se usan conjuntamente, en el proceso de reconocimiento, una cantidad de vistas del objeto. La correspondencia también induce a partir de las vistas del objeto la útil estructura de un espacio de vector. En este espacio, pueden aplicarse nociones tales como porcentaje, combinación, subespacios lineales, la formación de una base y otros semejantes, de un modo significativo.

Las vistas de objetos usados en este enfoque no se limitan a las simples imágenes del objeto. El uso de etiquetas abstractas permite al esquema incorporar además representaciones gráficas mas abstractas y las vistas almacenadas también se llama “descripciones gráficas.”

Correspondencia de la imagen con el modelo. El papel que tiene la correspondencia imagen-con-modelo en el proceso de reconocimiento se relaciona con el uso de las representaciones gráficas: cuando el modelo se almacena de modo gráfico, se hace posible una comparación entre el modelo y nuevas vistas del objeto, a diferencia, por ejemplo, de modelar un objeto mediante un conjunto de propiedades invariantes.

Información 3-D vs 2-D. En el enfoque de la combinación de vistas, el modelo puede considerarse como tridimensional y el objeto visto [156] como bidimensional. Aunque la representación del objeto se base en vistas 2-D, contiene información 3-D implícita. Tres vistas congruentes del mismo objeto puede usarse en principio para reconstruir la forma 3-D del objeto.

Transformaciones de compensación. El enfoque de combinaciones de vista usa transformaciones de compensación explícitamente para situar en una cercana correspondencia al modelo interno y la objeto visto. Las vistas almacenadas del modelo se combinan y manipulan para generar una vista interna que está lo más cercana posible a la vista de entrada.

Combinación de los procesos de abajo hacia arriba y de arriba hacia abajo. [157] En el enfoque de la combinación de vistas, las representaciones almacenadas juegan un papel muy activo. Pueden usarse para generar internamente representaciones intermedias, para compararlas con la imagen de entrada.

Muchos temas permanecen abiertos a nuevos estudios. Por ejemplo, el uso de vistas en perspectiva más que ortográficas, el papel de la información del nivel de grises, los contornos de la imagen y otros rasgos de la imagen, así como el uso de abstracciones gráficas. Otros problemas no han sido tratados por los enfoques de reconocimiento tratados hasta el momento, como tratar con objetos múltiples, la clasificación de objetos o el reconocimiento de objetos no rígidos.

 

[158]

[159]6 Clasificación

 

6.1 Clasificación e identificación

Los objetos pueden reconocerse a diferentes niveles de especificidad. Algunas veces están asignados a clases generales, tales como una “casa,”, “perro,” “rostro,”; clases que contienen una variedad de objetos de diversas formas diferentes. Los objetos también puede clasificarse con individuos únicos, como mi propia casa o el rostro de un amigo determinado. Las clases de objetos también puede tener niveles diferentes de generalidad, tales como un “cazador dorado,” “perro,” o “cuadrúpedo.”

Los esquemas de reconocimiento considerados hasta aquí apuntaron fundamentalmente a la identificación de los objetos.

Los sistemas de reconocimiento artificial son, habitualmente, más adecuados para la identificación que para la clasificación. Es más fácil, al usar métodos corrientes, reconocer formas conocidas, por más que sean complejas, bajo cambios bien definidos de las condiciones de enfoque e iluminación, que capturar las características comunes de una clase de objetos.

Los sistemas biológicos exhiben un comportamiento muy diferente. Para los sistemas visuales biológicos, la clasificación en una tarea natural, por lo general realizada espontáneamente y sin esfuerzo.

[160] Entonces. para los sistemas biológicos, la clasificación es más fácil que la identificación, mientras que lo opuesto es cierto para los sistemas artificiales. Éste es un contraste fascinante y, quizás, una mejor comprensión de la clasificación e identificación visuales nos proporcione algunas claves respecto a las diferencias en que los sistemas biológicos y los artificiales procesan y almacenan la información

Cabe preguntarse, en este contexto, si la identificación y el reconocimiento son de hecho dos procesos diferentes o si se trata de un rango completo, desde lo muy amplio a lo muy específico. La identificación individual y la clasificación amplia son bastante diferentes desde un punto de vista computacional y también hay diferencias entre estas tareas desde las perspectivas biológica y psicológica.

 

6.2 El papel de la clasificación de objetos

¿Por qué es útil la clasificación de objetos a diferentes niveles de especificidad? Como veremos, la clasificación de objetos a distintos niveles de generalización es muy útil por dos razones principales. Primero, la clasificación es útil por propio derecho, en especial en relación con objetos nuevos. Segundo, es una útil etapa intermedia en el camino de una identificación más específica.

[161] 6.2.1 Reconocimiento de nuevos objetos.

Clasificar objetos al nivel más general puede cumplir una cantidad de papeles útiles. El reconocimiento en general nos conduce a usar la imagen observada de un objeto para acceder a información adicional asociada con el objeto en cuestión, pero no aparente en la misma imagen. La clasificación cumple una importante función al inferir propiedades semejantes tanto de objetos conocidos como nuevos, basada en propiedades comunes con otros objetos en la misma clase. La habilidad para reconocer objetos a diferentes niveles de generalidad es, por ello, un importante aspecto del sistema de reconocimiento.

6.2.2 La clasificación en el modo de identificación.

La clasificación puede ayudar a la identificación de diversos modos.

Primero, la clasificación puede restringir el espacio de los modelos del objeto que son relevantes. La clasificación puede incrementar la eficiencia del proceso de reconocimiento, dirigiendo las etapas de procesamiento subsiguientes hacia la clase de modelos adecuada.

[162] La clasificación también puede permitir al sistema de reconocimiento usar información específica de clase en el proceso de reconocimiento. En el enfoque de la alineación, el reconocimiento implica la aplicación de procesos de compensación que reconcilian las diferencias entre el objeto visto y los modelos almacenados correspondientes. Algunas de las clasificaciones que un objeto puede sufrir son específicas a una clase particular de objetos.

Finalmente, la clasificación puede ayudar a generalizar a partir de información limitada al objeto específico. ¿Seremos capaces de generalizar e identificar un rostro cuando se lo ve desde una dirección diferente, bajo iluminación distinta y con una expresión facial diferente? Ya hemos visto que la generalización es posible si tenemos suficiente información acerca del rostro en cuestión. Pero incluso si esta información no está disponible, aún es posible usar un conocimiento más general acerca de rostros para satisfacer la información perdida y para generalizar desde una única visión hacia nuevas condiciones. Por ejemplo, el conocimiento acerca de expresiones faciales comunes puede usarse en el reconocimiento de un rostro individual. Así, será posible identificar el rostro sonriente de una persona incluso ni no hemos visto a esta persona en particular, sonreír en el pasado.

 

[163] 6.3 Procesamiento basado en la clase

En el camino que va de la clasificación a la identificación, el sistema puede usar información específica, asociada con la clase en cuestión, para ayudar al proceso de reconocimiento.

Se han consignado diversos aspectos del uso del procesamiento basado en la clase en un estudio realizado con Y. Moses (1993, Moses, Edelman & Ullman 1993a, b) sobre la identificación de rostros. [164][165]

[166] En conclusión, el proceso basado en la clase puede jugar un papel útil en la identificación. Según este enfoque, la clasificación con frecuencia puede anteceder a una identificación más específica en la cadena de procesamiento, si bien es posible que una vista muy conocida de un objeto familiar se identifique de inmediato, sin la intermediación del proceso de clasificación. Si algún nivel general de clasificación se cumple [167] primero, ello reducirá las exigencias de modelos individuales detallados y permitirá la aplicación del procesamiento específico de clase. El uso de procesos basados en la clase para el reconocimiento puede contrastarse con el procesamiento más general o universal, por una parte y con el procesamiento más específico o basado en el objeto, por otra.

Entre el nivel universal y el específico del objeto están los métodos de generalización al nivel de la clase. Estos métodos no se restringen a un objeto individual ni son aplicables a todos los objetos, sino que pueden usar algunas propiedades generales de una clase de objetos para ayudar al reconocimiento de un objeto específico en la clase.

 

[168] 6.4 Uso de prototipos de clase

Un ejemplo de un uso de las etapas de procesamiento que puede evitar la duplicación del esfuerzo por cada modelo de objeto individual en la clase, lo proporciona el método desarrollado por R. Basri (1992) en el marco del enfoque de la combinación de imágenes para el reconocimiento. En este método, los objetos se contrastan primero con prototipos de clase y este contraste puede reducir drásticamente el cálculo requerido para contrastar la imagen con todos los miembros individuales de la clase relevante.

En este método basado en el prototipo, los objetos se agrupan en clases, como clases de rostros, autos, sillas y otros semejantes. Cada grupo de objetos semejantes se representa cono un prototipo de clase singular. Recuérdese que, en el esquema de la combinación de imágenes, un objeto individual se representa mediante un conjunto de imágenes congruentes. Matemáticamente, puede pensarse en cada imagen de objeto como un conjunto de n puntos de rasgos. Un modelo de objeto contiene varias imágenes con congruencias conocidas entre ellas. Un prototipo se representa de modo semejante: es un miembro típico o promedio de una clase de objetos semejantes, también representados por un pequeño numero de imágenes congruentes. Se asume, en este método, que los objetos que constituyen una clase son suficientemente [169] semejantes como para que una congruencia natural pueda establecerse entre los diferentes objetos en la clase. La correspondencia entre el prototipo y los miembros individuales de la clase y la división en clases diferentes es, por supuesto, parte de la etapa de aprendizaje más que del proceso efectivo de reconocimiento.

La primera etapa en el reconocimiento de una nueva imagen de entrada consiste en compararla frente a los prototipos de la clase, más que frente a los objetos individuales.

 

[170][171] 6.5 Clasificación gráfica

 

En el caso de la identificación de objetos, puede obtenerse una correspondencia precisa entre el modelo y el objeto visto o sus correspondientes descripciones gráficas. La razón es que podemos tener, en ese caso, un modelo de objeto preciso y un conjunto restringido de transformaciones. Por ello, después de la compensación por las transformaciones, puede esperarse que la correspondencia entre el objeto y el modelo sea precisa. Las variaciones adicionales se manejan mediante la utilización de abstracciones que permiten que la correspondencia ocurra a un nivel más abstracto que los rasgos precisos de la imagen.

¿Puede aplicarse un enfoque semejante en la etapa de la clasificación? La respuesta no es inmediatamente evidente, porque en la clasificación no se tiene un modelo preciso, sino sólo un modelo general burdo que representa diversos objetos individuales. No puede esperarse, por tanto, una correspondencia precisa entre el objeto visto y el prototipo de la clase y no es claro si la calidad de la correspondencia será suficiente para la clasificación. Puede suponerse que, para captar la [172] esencia de una clase, los aspectos comunes de un conjunto de rostros, aeroplanos, gatos, etc., se deberá emplear, en vez del enfoque gráfico un proceso más complejo, simbólico, semejante al razonamiento, quizá utilizando consideraciones funcionales, o sea, un razonamiento acerca de la función posible del objeto visto.

Parece que, al menos para los sistemas biológicos, la clasificación de hecho es un proceso más simple, más inmediato y primitivo que la identificación exacta. Dado que se sugiere el alineamiento de las descripciones gráficas como un importante componente de la identificación visual, es interesante explorar la aplicabilidad de un enfoque simple de gráfica rápida  para la clasificación de los objetos.

[173] Figura 6.1 Clasificación gráfica: ejemplos de las representaciones de clases almacenadas en la base de datos y de nuevas imágenes para clasificar.

[174] Figura 6.2 Clasificación gráfica: ejemplos de resultado de clasificación producidos por el sistema de clasificación.

[175] Figura 6.3 Clasificación gráfica: ejemplos adicionales.

[176]

La clasificación de una nueva imagen se cumplió (experimentos llevados a cabo por Y. Yolles, 1996) siguiendo esta líneas. La imagen de entrada se contrastaba con todas las imágenes almacenadas en la base de datos. Antes del contraste, la imagen se normalizaba para su alineamiento con los modelos almacenados. El alineamiento se obtenía extrayendo la orientación mayor del modelo, dibujando una caja de encuadre alrededor del modelo y transformando la caja de alinear en un rectángulo canónico (o sea, un rectángulo con determinadas dimensiones fijas).  Además, el modelo de entrada se reflejaba especularmente sobre el eje vertical, de modo que tanto la imagen original como su reflejo especular se contrastasen con los modelos almacenados. Este reflejo le permitía al sistema generalizar y clasificar un modelo después de haber sido expuesto sólo a una versión de reflejo especular de un modelo semejante.

Es interesante observar que esta capacidad de generalizar a través de los reflejos especulares parece ser una capacidad innata para los sistemas visuales relativamente simples.

En el sistema de Yolles, el contraste de una entrada y los modelos almacenados usaban una medida de comparación diseñada para ser insensible a las pequeñas distorsiones de la imagen, combinando las distancias 2-D y las diferencias de orientación. Esta medida se aplicaba a las representaciones de los bordes de las dos imágenes. En los modelos almacenados, [177] sólo un subconjunto de los bordes de los modelos, habitualmente los contornos de los límites exteriores, se usaban para la comparación; los contornos internos menos estables no se utilizaban en la comparación.

 

[178] Esquemas alternativos. Se puede considerar también un método alternativo y muy natural, de utilizar el método semejante a la alineación para realizar la clasificación. En el reconocimiento de objetos 3-D rígidos, la clase de transformaciones admisible se limita a simples transformaciones rígidas en el espacio. Un modo de tratar con clases más que con objetos individuales puede consistir en el uso de un más amplio conjunto de transformaciones. Una desventaja de semejante enfoque es que la clasificación se hace más compleja que la identificación, en vez de una tarea más simple y primitiva. El problema del alineamiento tendrá ahora grados de libertad adicionales y la compensación de las diferencias entre el objeto visto y el modelo almacenado se harán más complicadas. En la comparación simple de imágenes, las transformaciones complejas no requerían compensación. Como resultado, el cotejo obtenido entre la imagen y las representaciones del modelo serán menos precisas.

[179] Otro enfoque posible no utiliza el esquema de alineamiento, pero usa en su lugar descripciones estructurales, tales como el esquema de descripción RBC desarrollado por Biederman (1985). Este enfoque tiene cierto atractivo, ya que, al nivel de clase, los objetos comparten con frecuencia alguna semejanza general estructural y, en algunos casos, puede usarse un único tipo de descripción estructural. Una desventaja para el uso general de este método es, de nuevo, el problema de la relativa complejidad: se requiere la clasificación inicial para ser rápido y simple, pero la recuperación de una descripción estructural, en cuanto primitivos 3-D, puede ser una tarea exigente.

 

6.5.1 Clasificación gráfica: Extensiones

 

Abstracciones. El uso de abstracciones es aun más importante en la clasificación, comparado con la identificación, debido a las diferencias entre individuos de la misma clase [la cornamenta de los ciervos].

[180] ¿Qué tipo de descriptores abstractos deberían usarse? Un enfoque habitual que puede considerarse como una forma de abstracción es usar representaciones de resolución múltiple. En este enfoque, un objeto dado se representa simultáneamente a varios niveles de resolución. La versión baja de la resolución ignora algunos de los detalles finos y por ello los modelos pueden contrastarse a este nivel sin un acuerdo ajustado en la estructura detallada de alta resolución. Además de la abstracción de la forma, otras propiedades, como color o textura podrían usarse para formar abstracciones. Será interesante un mayor estudio de este problema y eventualmente producir una teoría mejor de la abstracción y de su uso en la clasificación.

Alineamiento. De modo semejante a los esquemas de alineamiento ya expuestos, el prototipo de clase puede contener [181] información acerca de las estructura 3-D así como posibles distorsiones.

Otro problema con el alineamiento simplificado es que será sensible a la oclusión, ya que ésta se basa en las dimensiones totales del objeto.

El uso de las partes. Debido a la intrínseca variabilidad de las formas, la correspondencia entre un objeto específico y un prototipo de clase puede limitarse inicialmente a sólo una parte del objeto. Por ello es deseable que el esquema de reconocimiento sea sensible a una correspondencia parcial y también a usar correspondencias parciales como un punto de partida y después extenderlo a partes adicionales.

Límites de clase. Finalmente, un esquema de clasificación más abarcativa permite incluir algunos medios especializados para manejar objetos que están cerca del límite entre dos clases. Por ejemplo, la diferencia entre dos animales semejantes o dos números manuscritos, tales como un “4” y un “9” que puede estar próximos en su forma, puede no obtenerse usando el proceso más general de clasificación. El problema puede superarse en parte, almacenado en el sistema modelos adicionales, por ejemplo, algunos del 4 y del 9, más que un prototipo único de clase, y en parte puede requerir aplicar rutinas especializadas que pueden realizar tareas de desambiguación, tales como comprobar la continuidad, cierre y otras semejantes, de diferentes partes de la figura.

 

[182] 6.6 Evidencia desde la psicología y la biología

 

La anterior discusión proporciona una cantidad de rasgos generales acerca de la clasificación. Primero, comparado con la identificación, es más simple, una tarea más inmediata. Segundo, en cuanto a los procesos subyacentes, está muy relacionado con la identificación y usa algunas formas de descripciones gráficas de alineamiento. Tercero, la clasificación ayuda a la identificación restringiendo el dominio de los modelos relevantes y utilizando procedimientos de nivel de clase.

Proximidad de la clasificación.  Desde una perspectiva teórica, la clasificación tanto puede preceder a la identificación como seguirla en una etapa subsiguiente.

La evidencia psicológica y biológica sugiere que, en lo que concierne al sistema visual humano, la clasificación es la etapa más simple y más inmediata en el proceso de reconocimiento.

En el aspecto psicológico, [183] el uso de categorías superordinadas, por ejemplo que los autos y los aviones pertenecen a la clase más general de los vehículos, es de naturaleza más cognitiva que perceptual. Esta categorización es probablemente un ejemplo en el que la clasificación de hecho sigue en vez de preceder al proceso básico de reconocimiento.

En el aspecto biológico, hay una amplia literatura acerca de los efectos sobre el reconocimiento y la clasificación de los diferentes tipos de lesiones cerebrales. Atendiendo a la clasificación, un hallazgo que parece ser de naturaleza muy general consiste en que la identificación específica es más susceptible a los diferentes tipos de lesiones del sistema visual, en comparación con la clasificación más general. Por ejemplo, en el reconocimiento de rostros, la habilidad par reconocer una imagen como un rostro, para distinguir entre machos y hembras o entre grupos de mayor edad, se retiene por lo general incluso cuando está muy dañada la habilidad para identificar individuos. [184] Es interesante que Boswell (un paciente) pueda reconocer correctamente las expresiones faciales de rostros familiares y no familiares, fortaleciendo la noción de que las expresiones faciales están manejadas por procesos basados en clases.

La clasificación gráfica. Rosch, a partir de varios experimentos, llega al resultado de que las clases de nivel básico están representadas de modo gráfico y las categorías conceptuales más generales (tales como “vehículos”) ya no son de naturaleza gráfica.

[185] Otros experimentos psicológicos se usaron para sostener el uso de descripciones estructurales en el reconocimiento. Warrington encontró que la gente con lesiones en el lado derecho posterior tienden a tener dificultades con las vistas no convencionales de los objetos, tales como cuando el eje mayor de elongación ha sufrido un fuerte escorzo. Esto se tomó (Marr & Nishihara 1978, Marr 1982) como evidencia en apoyo de las descripciones estructurales basadas en ejes.

[186] El uso de la clasificación para la identificación. Existen hallazgos psicológicos que fundamentan el papel de la clasificación en el reconocimiento subsiguiente.

Un ejemplo es el estudio de M. Potter (1975) utilizando la técnica llamada RSVP: Rapid Sequential Visual Presentation. Nueve vistas por segundo; se encontró que proporcionar el nombre de la clase del objetivo a identificar era tan útil para cumplir la tarea como mostrar el exacto objetivo por adelantado. El conocimiento de la clase general puede facilitar el reconocimiento subsiguiente.

 

 

6.7 ¿Las clases están en el mundo o en nuestra cabeza?

 

Cuando se llega a la clasificación un tema general que es interesante tener en cuenta es cómo se determinan las clases.

Un enfoque es que las clases están “ahí afuera”, con independencia de nuestra propia percepción. Un orden determinado existe en el conjunto de los objetos y nuestro sistema perceptual se desarrolla para capturarlo y usarlo. [187] El mayor problema con este enfoque es que parece difícil definir y justificar una medida absoluta y objetiva de la semejanza entre los objetos en el mundo.

El enfoque opuesto es que la división de los objetos en clases y subclases es un orden que el observador impone sobre el entorno; es inventado más que descubierto. La clasificación está determinada por el aparato  perceptual más que por el propio objeto. Las imágenes de objetos tienden a formar agrupaciones que pueden tomarse como la base para conformar clases. Las agrupaciones no son objetivos, sino inducidas por la maquinaria perceptual. Un problema con este enfoque es que ignora la utilidad de las clases y sus relaciones con los objetos y sus propiedades. Las clases no son conjuntos azarosos de objetos con imágenes semejantes, sino que tienden a estar compuestas por objetos con algunas propiedades compartidas.

Me parece que, para el objetivo del reconocimiento visual, el lugar natural de comienzo son las clases de objetos en el mundo que existen con “clases relativas” más bien que como “clases absolutas”. Esto significa que más que algunas clases absolutas y objetivas, la formación de clases de objetos depende de un conjunto selecto de atributos interesantes. Dado un conjunto de atributos, puede definirse una medida de semejanza entre los objetos y esto puede conducir a la formación de agrupaciones naturales de objetos que comparten atributos semejantes [clara petición de principio] (Shepard 1987). El agrupamiento depende, por tanto, de la selección de atributos relevantes; diferentes atributos [188] darán lugar a diferentes agrupamientos. Desde un punto de vista evolutivo, diferentes sistemas de clasificación pueden desarrollarse y aquél que induzca a una clasificación de objetos en el mundo más útil será ventajoso.

Para hacer posible la clasificación, en primer lugar deberá existir alguna correlación entre los atributos visuales y los no visuales. En este sentido, la clasificación es una propiedad del mundo, o sea, hay algunas propiedades generales del mundo que hacen posible la clasificación visual. El mundo no impone, sin embargo, una única clasificación correcta. La clasificación depende de determinado criterio deseado y de atributos interesantes.

En este enfoque, por tanto, las clases son externas, pero en un sentido relativo más que absoluto. Los sistemas perceptuales se desarrollan para reflejar y capturar estructuras de clases útiles. Los esquemas de clasificación pueden evaluarse y compararse, pero no en términos absolutos, sólo en relación con criterios de clasificación dados.

Conclusiones. La clasificación es un proceso importante por derecho propio, ya que nos permite tratar efectivamente con objetos nuevos y aplicar a esos objetos un conocimiento general relativo a la clase. La clasificación es también una etapa útil en el camino hacia la identificación más específica. Puede usarse para restringir el espacio de los modelos importantes; proporciona una economía considerable en cuanto a los procesos de correspondencia y alineamiento requeridos; permite el uso de información específica de clase y hace posible generalizar desde información restringida de objetos específicos.

[189] Todavía tenemos un largo camino hasta disponer de métodos de clasificación efectivos que permitan manejar una amplio rango de objetos naturales. El desarrollo de métodos de clasificación me parece una de las más interesantes direcciones hacia otros estudios en el reconocimiento visual.

 

6.8 La organización de la memoria de reconocimiento.

 

El uso de clases impone una determinada estructura en la organización de la memoria usada  para el reconocimiento: objetos relacionados formas clases de objetos y estas clases se usan para facilitar los procesos de reconocimiento. La relación entre clases e individuos no es la única relación útil entre las representaciones de objetos almacenados en la memoria de reconocimiento. Comentaré brevemente, en esta sección, relaciones adicionales entre las representaciones de objetos y cómo pueden usarse en el proceso de reconocimiento. Desde un punto de vista calculatorio, los problemas relativos a la estructura interna de la memoria de reconocimiento aún no han sido examinados en detalle. Dado que los esquemas de reconocimiento de objetos se desarrollaron hasta el momento principalmente para tratar con pequeños conjuntos de objetos, los problemas relativos a la estructura de una gran cantidad de modelos de objetos no han recibido un tratamiento destacado. Ya hemos visto cómo las estructuras de clase pueden jugar un papel útil para tratar con grandes conjuntos de objetos. Como se verá más adelante, la estructura apropiada de la memoria de reconocimiento también puede ser útil para referirse a escenas naturales, la oclusión y los objetos flexibles.

 

6.8.1 Relaciones parte-todo

 

Determinados objetos que pueden reconocerse por sí mismos también pueden formar parte de objetos mayores y más complejos. El ojo como parte del rostro.

[190] Tales relaciones parte-todo pueden ser útiles para tratar con la oclusión y con los objetos flexibles o distorsionados.

 

6.8.2 Niveles diferentes de abstracción

 

Ya hablamos de la posibilidad de que un objeto dado pueda representarse a distintos niveles de abstracción. Por ejemplo, de una representación burda a una representación cuidadosa. Esto puede combinarse con la anterior relación de parte-todo.

 

6.8.3 Configuraciones de objetos

 

El reconocimiento de objetos naturales implica por lo común no el reconocimiento de objetos aislados, sino en el contexto de escenas complejas.

[191] El reconocimiento de un objeto en una escena no sólo puede sugerir otros objetos probables, sino también su situación esperada, tamaño y orientación.

Este uso de las configuraciones de objetos en el proceso de reconocimiento parece ser una parte importante de nuestra habilidad para tratar eficazmente las escenas naturales. Es por tanto deseable disponer de un esquema que permita el reconocimiento de un objeto en una escena sin caer en configuraciones rígidas predeterminadas de objetos determinados.

Cantidad de estudios psicológicos (Biederman 1972, 1981, etc.) han mostrado que el reconocimiento de un objeto en una escena depende de la presencia de otros objetos en la misma escena.

[192] Imagen 6.4 Configuraciones de objetos.

[193] El efecto de un objeto en el reconocimiento de otro fue estudiado por M. Bar (Bar & Ullman 1993) utilizando pares de objetos en vez de escenas complejas. Dos resultados interesantes emergieron de esta prueba. Primero, el reconocimiento de los dos objetos presentados juntos era más rápido y más preciso que el reconocimiento del objeto más difícil presentado por sí mismo (pero más lento que el objeto más fácil presentado solo). Segundo, este efecto beneficioso dependía de las relaciones espaciales específicas entre los objetos: el sombrero facilitaba el reconocimiento de un par de anteojos que aparecían debajo de él, pero no tenían prácticamente efecto cuando ambos objetos se presentaban lado a lado. Se requiere un mecanismo más sofisticado que tomo en cuenta la identidad de los objetos y su relación espacial.

La estructura de la memoria de reconocimiento hace posible usar el reconocimiento de un objeto en la escena para ayudar al reconocimiento de objetos relacionados.

[194] (en blanco)

 

 

 

 

 

 

[195] 7 Correspondencia de la imagen y el modelo

 

La correspondencia de la imagen con el modelo es un aspecto fundamental del reconocimiento por alineación. En el enfoque de la alineación, las representaciones del objeto visto y de los modelos almacenados mantienen su calidad de imágenes. Después de compensar por las transformaciones que separan la imagen y el modelo interno apropiado, las partes correspondientes de las dos representaciones estará en registro de proximidad. Además de seleccionar el modelo almacenado apropiado, el proceso de reconocimiento en este enfoque está acompañado también por el establecimiento de un contraste o una proyección entre las representaciones figurativas de la  imagen y el modelo.

Existen, sin embargo, diferencias esenciales en el modo como se usa la correspondencia en los diferentes esquemas de alineación. La diferencia más importante está entre el uso de la correspondencia cono una etapa independiente que conduce el proceso de alineamiento y la correspondencia como un resultado final del proceso de alineamiento, una diferencia que puede resumirse como “primero la correspondencia” versus “primero el alineamiento.” En el primer caso, se establece lo primero una correspondencia entre los rasgos seleccionados en las representaciones de la imagen y del modelo. En base a este contraste, se dirige y aplica la transformación de alineamiento para poner en registro a las dos representaciones.

En el enfoque de “primero el alineamiento”, las transformaciones se aplican sin establecer antes la correspondencia de la imagen con el modelo.

[196] En contraste con el alineamiento, no todos los enfoques del reconocimiento incluyen una correspondencia de la imagen con el modelo como un aspecto esencial del proceso de reconocimiento. Por ejemplo, varios modelos de reconocimiento basados en redes neurológicas de pre-alimentación (Fukushima 1986, 1988, Matan et al. 1992) trabajan sin establecer tal correspondencia. Estas redes representan de modo característico los posibles resultados del proceso de reconocimiento mediante un conjunto de unidades, en el plano de salida de la red. De modo semejante, el reconocimiento por propiedades invariantes también produce el reconocimiento sin establecer la correspondencia de la imagen con el modelo.

¿Se requiere realmente la correspondencia de la imagen con el modelo para el propósito del reconocimiento? Me parece que la correspondencia es, en la mayoría de los casos, un aspecto integrante del proceso de reconocimiento. Cuando se reconoce un objeto, se termina conocimiento no sólo la identidad [197] del objeto, sino también se conoce in detalle qué partes de la imagen corresponden a las diferentes partes del modelo. Esto puede ocurrir incluso cuando la imagen es una versión muy distorsionada del modelo: una vez se ha compensado la transformación de la distorsión, se logra un conocimiento explícito de la ubicación relativa de la parte de la imagen con respecto al modelo.

La correspondencia de la imagen con el modelo también está indicada por el hecho de que si las diferentes partes de la imagen son ambiguas en sí mismas, una vez que se ha reconocido el objeto completo, la partes se hacen reconocibles, basadas en su acuerdo con las partes correspondientes en el modelo.

La habilidad para realizar la correspondencia de la imagen con el modelo es útil: nos ayuda a identificar subpartes ambiguas y nos permite dirigir nuestra atención a determinadas partes del modelo.

La correspondencia de la imagen con el modelo es, por tanto, una parte integrante del proceso de reconocimiento. Sin embargo, establecer la correspondencia deseada entre la imagen y el modelo no es una tarea fácil. Existen dos dificultades principales asociadas con este problema. La primero tiene que ver con establecer la correspondencia correcta entre la imagen y un modelo interno único. Aquí los problemas incluyen qué rasgos se seleccionan para la correspondencia y cómo [198: Figura 7.1 Una imagen de un objeto distorsionado. El reconocimiento del objeto incluye la correspondencia de la imagen con el modelo como una parte del proceso de reconocimiento. Figura 7.2 Las partes en la imagen superior son difíciles de reconocer aisladas. En la imagen inferior, el reconocimiento de las mismas partes se basa en su correspondencia con las partes apropiadas en  un modelo de rostro almacenado.] [199] determinar la correspondencia entre la imagen un los rasgos del modelo. La segunda dificultad viene de la necesidad de establecer la correspondencia con exactamente uno sino múltiples modelos internos. Para seleccionar el modelo correcto, debe establecerse la correspondencia entre el objeto visto y todos los diversos modelos candidatos que necesitan tomarse en cuenta.

El uso de la clasificación puede ofrecer un buen modo de evitar innecesarias repeticiones del proceso de correspondencia. La correspondencia entre el objeto visto y un prototipo de clase puede reducir la necesidad de establecer múltiples procesos de correspondencia con los miembros individuales de la clase en cuestión.

 

 

Alineamiento mínimo y pleno

 

En la tarea de establecer la correspondencia de la imagen con el modelo, puede hacerse una distinción entre dos métodos alternativos: correspondencia mínima y correspondencia plena. El primero usa un cantidad mínima de rasgos correspondientes en la imagen y el modelo. El segundo establece un contraste completo entre las dos representaciones y transforma la una en la otra.

[200] El alineamiento completo también se necesita en el contexto de el método de combinación de imágenes para otro propósito: la construcción de modelos internos. Un modelo interno en el esquema de la combinación de imágenes contiene una pequeña cantidad de imágenes 2-D, con una correspondencia entre ellas conocida. Existe, sin embargo, una diferencia crucial entre el alineamiento pleno usado en el proceso de reconocimiento y éste usado para la construcción de modelos. La construcción de modelos puede ser un proceso considerablemente más bajo y más elaborado que se desarrolla gradualmente con el tiempo y la práctica. En contraste, los procesos requeridos durante el reconocimiento deben ser rápidos y aplicables a muchos modelos simultáneamente.

 

[201] 7.1 Correspondencia de rasgos

 

La transformación que separa el objeto visto y el modelo almacenado puede recuperarse, con frecuencia, sobre la base de un pequeño número de rasgos proyectados entre la imagen y el modelo.

 

7.1.1 Búsqueda sucesiva

 

Una posibilidad consiste en buscar a través de los pares posibles de rasgos de la imagen y del modelo, probando y valorando diferentes conjuntos de rasgos. En el caso de transformaciones rígidas, por ejemplo, tres puntos de identificación ya determinan la transformación de alineación.

 

[202] [203] 7.1.2 Pre-alineamiento

 

Para acortar la búsqueda de los rasgos correspondientes de la imagen y el modelo, un posible enfoque consiste en usar el método del pre-alineamiento del modelo. Esto significa que se han almacenado múltiples copias del mismo modelo, para diferentes claves de alineamiento.

La idea general del método es preparar y almacenar un copia diferente del modelo por cada opción posible de una clave de alineamiento (tres puntos distintivos) en la imagen. Dada una elección particular de una clave de alineamiento en la imagen, es posible llevar al objeto visto a una forma normalizada en cuanto tamaño, posición, orientación y otros semejantes. Diferentes elecciones de rasgos producirán, por tanto, diferentes formas normalizadas del objeto.

[204] Este enfoque puede ser práctico para objetos planos o para objetos 3-D que contengan una faz plana significativa, pero no para objetos 3-D en general. También es deseable en este método que el número de rasgos de alineamiento posibles no sea grande, ya que de otro modo la cantidad de copias almacenadas del mismo objeto puede hacerse inmanejable. Estas limitaciones restringen la aplicabilidad del método del pre-alineamiento, haciéndolo inutilizable para los casos generales de los objetos tridimensionales.

 

7.1.3 Rasgos y partes rotuladas

 

La búsqueda de correspondencia entre rasgos de la imagen y del modelo puede reducirse de modo significativo e incluso eliminarse, si los rasgos de alineamiento a utilizar no son indistinguibles: si cada rasgo de algún modo transporta un único rótulo, entonces el proceso de correspondencia puede usar estos [205] rótulos de identificación para precisar la correlación. Los rasgo de la imagen pueden rotularse de varias maneras. Por ejemplo, los rasgos identificadores pueden clasificarse en diferentes tipos, tales como ángulos, puntas, extremos, centros abultados y puntos de inflexión (Huttenlocher & Ullman 1987). El proceso de correspondencia puede relacionar, por ejemplo, puntos angulares en la imagen con ángulos, pero no con puntos de inflexión en el modelo. La rotulación de rasgos también es posible u6tilizando no la forma de los puntos identificatorios sino su ubicación grosera.

 

7.1.4 Alineamiento aproximado

 

Esto significa que, antes de establecer una exacta correspondencia punto a punto, se remueven, en una etapa preliminar, las grandes discrepancias entre la imagen y el modelo, en lo que respecta a la ubicación general, escala y orientación. La escala, por ejemplo, puede normalizarse dibujando [206] el rectángulo más pequeño (o alguna otra forma) que contenga a la figura y, después, ajustar la escala para un tamaño fijo predeterminado.

La rotulación y el alineamiento aproximado tal como están descritos en esta sección todavía no se han estudiado extensamente. Tales métodos globales requieren buena segmentación y encuentran problemas en el caso de oclusión parcial.

 

7.2 Equiparación de contornos

 

El proceso de correspondencia de la imagen al modelo también pude basarse en la correspondencia de extensos contornos suaves, más que de puntos distintivos aislados. Si la imagen contiene extensos contornos suaves, se hará difícil identificar y proyectar los puntos distintivos localizados. Es relativamente fácil, bajo tales condiciones, saber con alguna seguridad que un punto dado a lo largo de un contorno de la imagen se proyectará sobre algún punto a lo largo de un contorno vecino en el modelo, pero será difícil determinar la exacta ubicación proyectada sobre el contorno.

[207] Un problema semejante surge en el contexto de la correspondencia de movimientos (Hildrecht 1984, Marr & Ullman 1981).

[208] Figura 7.3

 

7.2.1 Correspondencia localmente ajustada

 

Una dificultad técnica con el método de la variación mínima es su complejidad calculatoria. Un método de correspondencia de contornos más eficiente usa la restricción del contraste localmente ajustado en vez de la variación mínima. Este método supone que la correspondencia entre contornos puede aproximarse localmente mediante una transformación ajustada.

[209][210] Las imágenes 7.4 y 7.5, producidas por I. Bachelder, muestran varios ejemplos de correspondencia entre imágenes de contornos, utilizando la correspondencia localmente ajustada.

Las imágenes muestran cuatro ejemplos: un marco de alambre rotado, un espacio-curvo rotado, un automóvil y un rostro. Cada ejemplo contiene cuatro paneles. El primero  muestra las imágenes de los dos contornos a contrastar: uno puede considerarse como el modelo interno, el otro como el objeto visto. El segundo panel muestra los componentes perpendiculares iniciales usados para el contraste. El tercer panel muestra la calculada correspondencia localmente ajustada y el cuarto muestra la correspondencia correcta, la que puede compararse con la calculada.

[211] Figura 7.4

[212] Figura 7.5

 

[213] 7.2.2 Correspondencia de contornos guiada por modelos

 

La idea principal tras la correspondencia guiada por modelos es que podemos usar las propiedades conocidas del propio modelo, más que las propiedades generales tales como suavidad o planaridad local, para ajustar la correspondencia de la imagen con el modelo. Aquí se tiende a producir la estructura tridimensional del modelo, utilizando el enfoque de la combinación lineal. Técnicamente, cada punto proporciona además una ecuación simple y las exigencias de una cantidad  de puntos puede combinarse para formar un sistema de ecuaciones lineales que pueden usarse para derivar la correspondencia y los coeficientes de la combinación de la imagen.

 

[214][215] Las figuras 7.6, 7.7 y 7.8 muestran ejemplos del método aplicado a las imágenes de automóviles y de rostros.

 

7.3 Métodos sin correspondencia

 

En contraste con el enfoque precedente, los métodos “sin correspondencia” no usan la correspondencia de rasgos para recuperar

[216] Figura 7.6

[217} Figura 7.7 Correspondencia guiada por modelo aplicada a la imagen de un rostro

[218] Figura 7.8 Correspondencia de una imagen de rostro con un modelo incorrecto de rostro

[219] la transformación. Por el contrario, una investigación se conduce en el espacio de las transformaciones posibles.

El método de los patrones deformables (Yuille & Hallinan 1992) es un ejemplo. En este método un modelo de objeto contiene una cantidad de  parámetros ajustables par variar su forma. Por ejemplo, un módulo de reconocimiento de rostros puede contener un patrón deformable para la forma de la boca. Durante el reconocimiento, estos parámetros se ajustan mediante un proceso de búsqueda (tal como un gradiente descendente) para minimizar la diferencia entre el modelo y el objeto visto.

Un problema potencial es que puede requerir muchas iteraciones para convergir en una buena correspondencia. Un segundo problema es que la búsqueda se prenda de un mínimo local y fracase en encontrar la correspondencia correcta. Hay métodos de búsqueda que pueden rodear este problema al precio de explorar en paralelo múltiples soluciones posibles.

 

[220] 7.4. Procesos de correspondencia en la visión humana

 

Una cuestión que surge espontáneamente es la de si nuestro propio sistema visual opera de esta manera. O sea, si establece una correspondencia entre la imagen vista y el modelo almacenado como una etapa intermedia en el proceso de reconocimiento.

No se conoce la respuesta, pero es interesante observar la capacidad del sistema visual para realizar correspondencias eficientes en otro dominio, el de la percepción del movimiento. Cuando se presentan dos imágenes semejantes en rápida alternación, con frecuencia no vemos la desaparición de una imagen y la aparición de otra, sino un débil movimiento distorsionando una imagen en la otra. Esto se conoce como el fenómeno del movimiento aparente. Al percibir el movimiento aparente, el sistema visual establece efectivamente una correspondencia entre las dos imágenes.

[221] Dos diferencia deben señalarse. Primero, en la correspondencia del movimiento la discrepancia entre las imágenes sucesivas no es habitualmente demasiado grande, en cuanto a la diferencia de escala, cambio de orientación, etc. En el reconocimiento las diferencias pueden ser mayores, pero pueden reducirse usando una etapa de alineamiento burdo. Segundo, en el reconocimiento la correspondencia es establece no sólo una, sino varias veces, con todos los modelos candidatos que tengan que considerarse. Sin embargo, mediante el uso adecuado de la clasificación, la cantidad de distintas correspondencias  imagen con modelo que se necesitan puede restringirse mucho. En el futuro, experimentos computaciones, combinando la clasificación con el reconocimiento de una gran cantidad de objetos puede arrojar alguna luz sobre estos temas.

[222] Figura 7.9. Correspondencia establecida perceptualmente, en una presentación de movimiento aparnte.

 

[223] 7.5 Construcción de modelos

 

En el enfoque de combinación de imágenes, un modelo se construye a partir de una cantidad de imágenes con correspondencias conocidas entre ellas. La correspondencia requerida con este objetivo es una plena, en contraste con la etapa de reconocimiento que puede utilizar rasgos de correspondencia sueltos.

El problema de establecer correspondencias con el objetivo de la construcción de modelos es diferente al de ejecutar la correspondencia imagen con modelo durante el reconocimiento. La construcción de modelos es un proceso “off-line”, no está sometido a exigencias del mismo tiempo que el proceso de reconocimiento. La construcción de modelos puede usar procesos más elaborados y con mayor consumo de tiempo.

Las técnicas expuestas antes respecto de la correspondencia de imagen con modelo puede emplearse también con el objetivo de la construcción de modelos. Además, dos técnicas han sido usadas para ayudar a establecer la plena correspondencia del tipo necesario para la construcción de modelos. La primera es el uso de las llamadas líneas epipolares.

[224] Un segundo método consiste en el uso del nivel real de gris en la imagen, en vez de los puntos de contornos y rasgos.

 

[225] 7.6 Compensación por cambios de iluminación

 

Al considerar las variaciones posibles en la imagen de un objeto dado, básicamente nos hemos centrado en cambios de forma, inducidos ya bien por cambios en la posición de visión o, en alguna medida, distorsiones del propio objeto. Otra importante fuente de variabilidad proviene de los cambio en las condiciones de iluminación. La imagen, que es un distribución bidimensional de los valores de intensidad de la luz, cambia significativamente con los cambios de iluminación. ¿Cómo puede un sistema de reconocimiento tratar y compensar tales cambios?

La respuesta no es del todo conocida, pero existe básicamente un enfoque dominante, basado en la noción de detección de bordes (Canny 1986, Davis 1975, Haralick 1980, Marr & Hildreth 1980) La idea es encontrar la distribución de la intensidad de la luz que forma los rasgos de la imagen que están lo menos afectados posible por los cambios en las condiciones de iluminación. El ejemplo mejor conocido son los bordes de intensidad, que son los contornos donde la intensidad de la luz cambia en forma relativamente abrupta de un nivel a otro. Tales bordes se asocian por lo general con los límites del objeto y con cambio materiales sobre la superficie de un objeto.

 

[226] Iluminación y combinación de imágenes.