miércoles, 23 de abril de 2014

RECUPERACION DE LA INFORMACION

   En esta entrada vamos a hablar sobre las técnicas de recuperación de información.

   La Recuperación de Información es el proceso de comunicación entre los usuarios y los sistemas, que mediante unas herramientas se logra recuperar un conjunto de elementos, que son evaluados por el interesado en la búsqueda, para lograr satisfacer su necesidad de información.
La recuperación de la información se hace a través de cuatro componentes:

  • El usuario realiza la búsqueda
  • Herramientas de búsqueda
  • Bases de datos y otros medios de almacenamiento de la información
  • Resultado de la búsqueda

Recuperación y tratamiento de los contenidos:

   La recuperación se puede conseguir consultando las bases de datos, que es donde se almacena la información estructurada. Es necesario tener en cuenta los elementos clave de la búsqueda y los fenómenos que se pueden dar en el proceso como el ruido documental (documentos recuperados no relevantes por realizar una búsqueda muy genérica) y el silencio documental (documentos no recuperados por realizar una búsqueda demasiado específica).


Almacenamiento de la información:

Bases de datos

   Es el conjunto de informaciones almacenadas en un soporte legible por ordenador y organizadas internamente por registros (formado por todos los campos referidos a una entidad u objeto almacenado) y campos (cada uno de los elementos que componen un registro).

Clasificación:

Según la naturaleza de la información contenida:

  • Bases de datos referenciales: La información que contiene es muy estructurada principalmente a través de tablas. Ejemplo de este tipo de base de datos es el programa Access, Oracle, etc.
  • Bases de datos documentales: Los registros que componen la base de datos se relaciona con los documentos almacenados.
Dependiendo del tipo de cobertura temática:

  • Bases de datos multidisciplinares: la documentación almacenada abarca distintas disciplinas científicas como es el caso de TESEO (tesis de todas las disciplinas).
  • Bases de datos especializadas: la documentación almacenada abarca sólo una disciplina como es el caso de Medline (sólo documentación relacionada con Medicina).
Internet:

   A través del manejo de buscadores, directorios y otras herramientas de búsqueda podemos obtener información de manera automática según los criterios de nuestra búsqueda.

Técnicas de recuperación de información

  • Sistemas de recuperación de lógica difusa:
   Esta técnica permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, dejando sólo aquellas palabras que el sistema considera relevantes.

  • Técnicas de ponderación de términos:
   Es común que unos criterios en la búsqueda tengan más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contengan el documento y la frecuencia con que se repita.

  • Técnica de clustering:
   Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores que actúan para agrupar los documentos por orden de importancia, mediante algoritmos ranking.

  • Técnicas de retroalimentación por relevancia:
   Esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.

  • Técnicas de stemming
   Morfológicamente las palabras están estructuradas en prefijos, sufijos y la raíz. La técnica de Stemming lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, para ello trunca la palabra y busca solo por la raíz.

Representación de la información:

   El último paso en la cadena de la recuperación de la información es la representación de la información, el mostrarle al usuario los datos obtenidos. Esta información puede ordenarse a través de listas ordenadas por importancia, alfabéticamente, por temas… otro detalle importante es la calidad de la representación, hay que ser precisos con el número de resultados, que sean adecuados con lo buscado y de calidad.



Calidad de la recuperación

   Nombraremos algunos criterios para que la recuperación sea de calidad.

  •  Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda.
  • Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección.
  • Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
  • Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados.

No hay comentarios:

Publicar un comentario