En esta entrada vamos a hablar
sobre las técnicas de recuperación de información.
La Recuperación de Información es
el proceso de comunicación entre los usuarios y los sistemas, que mediante unas
herramientas se logra recuperar un conjunto de elementos, que son evaluados por
el interesado en la búsqueda, para lograr satisfacer su necesidad de
información.
La recuperación de la información
se hace a través de cuatro componentes:
- El usuario realiza la búsqueda
- Herramientas de búsqueda
- Bases de datos y otros medios de almacenamiento de la información
- Resultado de la búsqueda
Recuperación y tratamiento
de los contenidos:
La recuperación se puede
conseguir consultando las bases de datos, que es donde se almacena la
información estructurada. Es necesario tener en cuenta los elementos clave de
la búsqueda y los fenómenos que se pueden dar en el proceso como el ruido
documental (documentos recuperados no relevantes por realizar una búsqueda muy
genérica) y el silencio documental (documentos no recuperados por realizar una
búsqueda demasiado específica).
Bases de datos
Es el conjunto de informaciones
almacenadas en un soporte legible por ordenador y organizadas internamente por
registros (formado por todos los campos referidos a una entidad u objeto
almacenado) y campos (cada uno de los elementos que componen un registro).
Según la naturaleza de la
información contenida:
- Bases de datos referenciales: La información que contiene es muy estructurada principalmente a través de tablas. Ejemplo de este tipo de base de datos es el programa Access, Oracle, etc.
- Bases de datos documentales: Los registros que
componen la base de datos se relaciona con los documentos almacenados.
Dependiendo del tipo de cobertura
temática:
- Bases de datos multidisciplinares: la documentación almacenada abarca distintas disciplinas científicas como es el caso de TESEO (tesis de todas las disciplinas).
- Bases de datos
especializadas: la documentación almacenada abarca sólo una
disciplina como es el caso
de Medline (sólo documentación relacionada con
Medicina).
Internet:
A través del manejo de
buscadores, directorios y otras herramientas de búsqueda podemos obtener
información de manera automática según los criterios de nuestra búsqueda.
- Sistemas de recuperación de lógica difusa:
Esta técnica permite establecer
consultas con frases normales, de forma que la máquina al realizar la búsqueda
elimina signos de puntuación, artículos, conjunciones, plurales, tiempos
verbales, dejando sólo aquellas palabras que el sistema considera relevantes.
- Técnicas de ponderación de términos:
Es común que unos criterios en la
búsqueda tengan más valor que otros, por tanto la ponderación pretende darle un
valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los
documentos recuperados se encuentran en función del valor obtenido en la
ponderación. El valor depende de los términos pertinentes que contengan el
documento y la frecuencia con que se repita.
- Técnica de clustering:
Es un modelo probabilístico que
permite las frecuencias de los términos de búsqueda en los documentos
recuperados. Se atribuyen unos valores que actúan para agrupar los documentos
por orden de importancia, mediante algoritmos ranking.
- Técnicas de retroalimentación por relevancia:
Esta técnica pretende obtener el
mayor número de documentos relevantes tras establecer varias estrategias de
búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar
los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta
vez con los elementos interesantes, seleccionados de los documentos
primeramente recuperados.
- Técnicas de stemming
Morfológicamente las palabras
están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo
que pretende es eliminar las posibles confusiones semánticas que se puedan dar
en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la
raíz.
Representación de la
información:
El último paso en la cadena de la
recuperación de la información es la representación de la información, el
mostrarle al usuario los datos obtenidos. Esta información puede ordenarse a
través de listas ordenadas por importancia, alfabéticamente, por temas… otro
detalle importante es la calidad de la representación, hay que ser precisos con
el número de resultados, que sean adecuados con lo buscado y de calidad.
Calidad de la recuperación
- Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda.
- Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección.
- Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
- Tasa de relevancia: coeficiente que
surge de dividir el número de documentos relevantes recuperados, sobre el
número total de documentos recuperados.
No hay comentarios:
Publicar un comentario