Introducción a la Recuperación de la Información
1. ¿Qué es la recuperación de la información?
La recuperación de la información (RI) consiste en proporcionar información relevante al usuario para satisfacer una necesidad específica. De manera más genérica, podemos decir que la RI intenta resolver el problema de «encontrar y rankear los documentos más relevantes que satisfagan la necesidad de información de un usuario, expresada en un determinado lenguaje de consulta».
2. ¿Qué es rankear?
Es el proceso de posicionar o clasificar elementos (documentos, enlaces, etc.) según su relevancia o popularidad en un momento determinado.
3. ¿Cuáles son las problemáticas de la recuperación de la información?
El problema puede ser estudiado desde dos puntos de vista:
- Computacional: Se centra en la construcción de estructuras de datos y algoritmos eficientes que mejoren la calidad y velocidad de las respuestas.
- Humano: Se enfoca en el estudio del comportamiento y de las necesidades reales del usuario.
Sistemas de Recuperación de la Información (SRI)
4. ¿Qué es un Sistema de Recuperación de la Información (SRI)?
Son herramientas informáticas que permiten recuperar información específica que se encuentra almacenada, organizada e indexada con anterioridad. Estas herramientas permiten al usuario encontrar información mediante el uso de claves, combinaciones de campos o caracteres booleanos.
5. ¿Qué es información y qué es un dato?
- Dato: Es una representación simbólica de alguna situación o conocimiento, sin sentido semántico por sí mismo. Describe hechos o situaciones «sin transmitir mensaje alguno». Puede ser un número, una letra o un hecho aislado.
- Información: Es un conjunto de datos procesados que proveen un mensaje. Este mensaje contribuye a la toma de decisiones, resuelve problemas e incrementa el conocimiento de los usuarios que acceden a ella.
6. Esquema de la problemática de recuperación de la información
7. Arquitectura básica de un SRI
Explicación: El usuario, a través de una interfaz, realiza una consulta. Esta consulta es procesada por un algoritmo de búsqueda que interactúa con una colección o Corpus (conjunto de documentos). El sistema realiza una representación lógica, indexa el contenido (asignando punteros a cada elemento) y lo registra en una base de datos. Utilizando estos índices, el sistema procede a rankear los resultados y genera una respuesta que se entrega al usuario a través de la interfaz.
Tópicos y Áreas de Aplicación
8. ¿Qué tópicos abarca la Recuperación de la Información?
- Modelos de recuperación: La RI puede modelarse mediante enfoques estadísticos, álgebra de Boole o álgebra de vectores.
- Filtrado y ruteo: Define perfiles de necesidades. Ante nuevos documentos, el sistema los analiza y los reenvía a los usuarios interesados.
- Clasificación: Rotulación automática de documentos en base a clases predefinidas.
- Agrupamiento (Clustering): Similar a la clasificación, pero sin clases predefinidas; el sistema determina las particiones automáticamente.
- Sumarización: Técnicas de extracción de partes esenciales (palabras u oraciones) que determinan la esencia de un documento.
- Detección de novedades: Introducción de nuevos temas a un SRI.
- Respuestas a preguntas: Hallar porciones de texto que satisfacen concretamente una consulta.
- Extracción de información: Extraer texto con alta carga semántica y establecer relaciones entre términos.
- Recuperación Cross-Language: Búsqueda multilingüe para hallar documentos en cualquier idioma.
- Búsqueda WEB: SRI que operan sobre un corpus web privado (Intranet) o público (Internet).
- RI Distribuida: Tareas sobre estructuras de datos distribuidas en una red de computadoras.
- Modelado de usuarios: Generación automática de perfiles basados en la interacción del usuario.
- RI Multimedia: Recuperación de imágenes, audio y video, más allá del texto.
9. Diferencias entre SGBD y SRI
10. ¿Qué es la ciencia de datos?
Es un campo científico interdisciplinario que analiza e interpreta grandes cantidades de datos (Big Data). Se basa en estadística, análisis de datos, machine learning, métodos científicos y algoritmos para extraer información relevante aplicable a diversas industrias.
Interacción y Modalidades de Recuperación
11. ¿De qué forma interactúa el usuario con el SRI?
La interacción se divide principalmente en dos partes:
- Recuperación inmediata: El usuario plantea su necesidad y obtiene referencias al instante.
- Recuperación diferida: El usuario especifica sus necesidades y el sistema entrega documentos nuevos de forma continua (filtrado y ruteo).
12. Modalidades de Recuperación Inmediata
- Búsqueda ad-hoc: El usuario formula una consulta en un lenguaje que el sistema evalúa. El usuario sabe qué busca y cómo expresarlo (Ej.: Google).
- Navegación o Browsing: El sistema ofrece una interfaz con temas por los que el usuario navega. Ideal para quienes no pueden definir claramente su consulta inicial (Ej.: Proyecto Open Directory).
13. ¿Cómo funciona un «perfil» en recuperación diferida?
Un perfil actúa como una consulta (query) permanente. Cada vez que un documento llega al sistema, se compara con el perfil; si es relevante, se envía al usuario.
14. El concepto de Relevancia en RI
La relevancia se plantea como similitud. Un documento es relevante si es similar a la consulta basándose en criterios como: coincidencia de términos, significado, frecuencia de aparición y distribución del vocabulario.
Modelos de Recuperación de Información
1. ¿Qué es un modelo en RI?
Es una representación abstracta que describe los procesos humanos y computacionales involucrados en la recuperación, incluyendo el comportamiento del usuario, el ranking de documentos y los componentes del sistema.
2. ¿Qué permiten los modelos y qué especifican?
Permiten estudiar propiedades, sacar conclusiones y hacer predicciones. Especifican la representación de documentos, la representación de consultas y la función de recuperación.
3. Matching Exacto vs. Matching Aproximado
- Matching exacto: El documento coincide o no con el criterio preciso. El resultado es un conjunto de documentos usualmente sin orden.
- Matching aproximado: Cada documento tiene un grado de coincidencia. El resultado es una lista ordenada (ranking) donde el primero es el mejor.
4. Modelos clásicos de RI
- Modelo Booleano (Teoría de conjuntos).
- Modelo Probabilístico (Teoría de probabilidades).
- Modelo de Espacio de Vectores (Algebraico / Estadístico).
5. Características de los modelos clásicos
- Documentos representados por Keywords o términos indexados.
- Representación de texto completo (full text representation).
- Uso de pesos (Wij) para determinar la importancia de un término (Ki) en un documento (dj).
6. Clasificación de los modelos de los SRI
Se clasifican según procesen documentos estructurados o no estructurados.
7. El Modelo Booleano
Basado en la teoría de conjuntos y el álgebra de Boole. Cada término se trata como una variable booleana (verdadero si está presente, falso si no).
8. Representación en el modelo booleano
Se utiliza una matriz binaria documento-término.
9. Operadores del Modelo Booleano
- AND: Intersección; ambos términos deben cumplirse obligatoriamente.
- OR: Unión; suma de conjuntos, incluye elementos comunes y no comunes.
- NOT: Diferencia; resta de un conjunto los documentos que contienen el término indicado.
- XOR: Selección de elementos complementarios, evitando las intersecciones.
10. Ventajas y desventajas del Modelo Booleano
Ventajas: Consultas simples e implementación sencilla.
Desventajas: No ofrece ranking (usa orden cronológico), puede ser difícil para usuarios inexpertos y los resultados suelen ser demasiado amplios o muy reducidos.
11. El Modelo Probabilístico
Estima la probabilidad de que un usuario evalúe un documento d como relevante para una consulta q.
12. Respuesta del modelo probabilístico
Clasifica documentos como relevantes o irrelevantes. Busca maximizar la probabilidad de relevancia: P(Rel|d).
13. Funcionamiento del modelo probabilístico
Se recupera un conjunto inicial, el usuario marca los relevantes y el sistema refina la descripción del conjunto ideal de forma iterativa.
14. ¿Cuándo se recupera un documento?
Cuando P(Rel|d) > P(noRel|d).
15. Ventajas y desventajas del Modelo Probabilístico
Ventajas: Los documentos se rankean por probabilidad.
Desventajas: Requiere una separación inicial, no considera la frecuencia de términos y asume independencia entre palabras.
16. Modelo de Espacio de Vectores
Modelo de matching aproximado donde documentos y consultas se representan como vectores en un espacio multidimensional. La similitud se determina por la distancia entre ellos.
17. Medida de similitud
Función que calcula la cercanía de dos vectores. Permite ordenar resultados por relevancia y establecer umbrales de recuperación.
18. Recuperación en el Espacio de Vectores
Un documento se recupera incluso con coincidencia parcial. Se calcula mediante el peso del término en el documento (wij) y en la consulta (wiq).
19. Ventajas y desventajas del Modelo de Espacio de Vectores
Ventajas: Enfoque algebraico simple, provee matching parcial y ranking eficiente para grandes colecciones.
Desventajas: Pérdida de información semántica y sintáctica (orden de frases), y falta de control booleano estricto.
