domingo, 23 de abril de 2017

Tema 5: Recuperación de la información


Acceso a la información: recuperación


Como se ha comentado en el blog anterior, la recuperación de la información que se obtiene al realizar una búsqueda se puede resumir en 3 grupos, en los que encontramos el “rastreador”, el cual recopila información de las páginas web, la indexación (se crean índices de la información recopilada) y finalmente obtenemos los resultados.

Pero lo cierto es que el proceso de recuperación de la información, no es tan simple como se ha mencionado en la agrupación anterior, sino más bien, en dicho proceso podemos encontrar multitud de análisis, procesos o métodos enfocados a proporcionar los resultados que el usuario pretende encontrar.

A continuación, se explicará el Proceso de recuperación  de la información.

De forma general en el proceso se realiza la representación , el almacenamiento, organización y acceso a elementos de información.

En dicho proceso podemos encontrar un corpus o biblioteca documental de tamaño variable, que gracias a la indexación, almacenamiento y por medio de algoritmos matemáticos, estadístico semánticos, se puede estructurar, interrogar y representar.(Blázquez, M. 2012)

Cuando se realiza cualquier búsqueda, se puede distinguir las siguientes fases:

1.      La consulta del usuario

2.      La interfaz de consulta: en ella el algoritmo* de recuperación se comunica con los modelos de recuperación, como los modelos booleanos, vectoriales, probabilísticos o de texto estructurado entre otros.
      (*Algoritmo se refiere al  conjunto ordenado de operaciones sistemáticas que permite hacer un cálculo y hallar la solución de un tipo de problemas)

3.      Fase de representación de la información: la consulta es depurada y normalizada, por lo que se trata en esta fase de adaptar los términos o palabras del usuario, para obtener una buena búsqueda. Los resultados suelen ser ordenados según la precisión obtenida, el número de clics o de visualizaciones entre otras características que se describirán más adelante.


Para poder llevar a cabo el proceso de recuperación de información, debe existir una consulta, una base sobre los documentos que hay en la red, como una especie de biblioteca gigante.
Todo ello debe existir para poder hablar del proceso de recuperación, en dicho proceso se describen otra serie de etapas, en las cuales se trabaja con la información que se ha obtenido en la red, con el objetivo de organizarla, a fin de poder obtener el resultado o los resultados más deseados por los usuarios.
En varias ocasiones, muchos buscadores (Google, Bing...) pretenden averiguar si el resultado que se ha proporcionado es el que el usuario necesitaba, para ello suelen tener en cuenta el tiempo que se tarda en acceder a los enlaces, o si se reformula la consulta, pero dicha determinación es una tarea realmente difícil, ya que entran muchas cuestiones en juego, como el objetivo del usuario, ya que podría ser el mismo tema, pero busca información diferente, tales como noticias, bibliografía o historia, por lo que resulta difícil de interpretar desde los programas informáticos, lo que realmente busca el usuario.
Pero aún así los buscadores cada vez ofrecen mayores opciones de búsqueda, los cuales han facilitado la obtención de resultados deseados.  
➤LA CONSULTA: se origina por una necesidad de información por parte de los usuarios, los cuales formulan una pregunta o consulta.

➤La BASE del conocimiento: se suele denominar colección, la cual hace referencia a una biblioteca de documentos seleccionados previamente por métodos de webcrawling. Se suele poseer una colección de referencia, la cual es usada como modelo experimental de recuperación de la información.

El crawling o el webcrawling, permite formar la base del sistema de recuperación, mediante esquemas de las páginas web, en los que se han extraído los enlaces, las etiquetas o los párrafos. 

➤DOCUMENTOS: todo tipo de información independiente, algunos ejemplos son; artículos, monografías, páginas web y textos.

➤TREC (http://trec.nist.gov/): es una de las colecciones más importantes conocida internacionalmente, usada para la recuperación de la información, fue creada por NIST (National Institute of Standards and Technology, http://www.nist.gov/)

➤SISTEMA DE RECUPERACIÓN DE INFORMACIÓN: cabe destacar el algoritmo de recuperación, en el cual se encuentran un conjunto de métodos, tratamientos informáticos, matemáticos y estadísticos.

También se lleva a cabo, la depuración, la indexación, la comparación de consultas o de modelos de recuperación.

En cuanto a los mecanismos de depuración, cabe señalar que se identifican los casos especiales, se normalizan los textos, dichos procesos hacen referencia a la conversión a minúsculas, a la eliminación de los signos de puntuación, los acentos y las palabras vacías.

En la indexación se asigna a cada palabra un identificador del documento, en los que podemos encontrar un indicador de posición (párrafo o línea en la que se encuentra) y el número de identificación de esa palabra, siendo un número único e irrepetible. Todo ello permite conocer la posición de la palabra o término de los documentos de colección.

En la siguiente imagen se observa de forma esquemática, el proceso de indexación de la información
Otro proceso muy conocido es la Tokenización, el cual se encarga de descomponer los textos de una colección en sus unidades mínimas, es decir, en palabras o términos, para formar de esta manera una serie de listas que son usadas en el análisis
Como se ha visto por el momento, los procesos que se llevan a cabo para ofrecer los resultados de búsqueda, no son sencillos, sino mas bien sabemos que implica un conjunto de procesos y etapas que deben realizarse para poder ofrecer el mejor resultado, que busca el usuario.

PARA SABER MÁS: Posicionamiento en Google.
Un tesis llevada a cabo por Ricardo Carreras, de la Universidad Complutense de Madrid, explica los criterios que se establecen para posicionar o hacer que aparezca una página antes que otra. Las técnicas de posicionamiento usadas, son conocidas como SEO (search engine optimization ).
Se sabe que Google usa su propio algoritmo secreto que tiene en consideración más de 200 factores, a al hora de llevar a cabo la búsqueda.

Algunos de los criterios de posicionamiento mas usados son los siguientes:  
1- Presencia de la palabra clave en la etiqueta del título: eso básicamente hace referencia a que la palabra clave de la búsqueda esta localizada en el propio título, y de esa forma se clasificarán las páginas, influyendo en que unas se posicionen por encima que otras.
2- Extensión del texto de la página web (número de palabras): se han observado que la mayoría de las páginas web en primera posición poseen más de 200 palabras.
3- Numero de enlaces entrantes (enlaces, vínculos o hipertextos): páginas que reciben más de 400 enlaces entrantes, están entre los primeros resultados.
4- Page Rank: considera los enlaces entrantes o votos y la calidad de esos enlaces entrantes.
5- Densidad de la palabra clave en el texto de la página: google, premia una densidad considerable de la palabra clave y se suele realizar dividiendo el número de veces que aparece la palabra clave sobre el total.
6- Edad del sitio web: se suele valorar a las páginas relativamente antiguas más que a las de origen reciente.
7- Número de enlaces entrantes a todo el sitio web: para encontrarse sobre los primeros resultados, se requiere más de 100.000 enlaces entrantes para todo el sitio web.



BLIBLIOGRAFÍA:
- BLÁZQUEZ OCHANDO, Manuel. Técnicas avanzadas de recuperación de información: procesos, técnicas y métodos / Manuel Blázquez Ochando .– Madrid: mblazquez.es, 2013. Disponible en: http://mblazquez.es/wp-content/uploads/ebook-mbo-tecnicas-avanzadas-recuperacion-informacion1.pdf

- Ricardo Carreras Lario, CÓMO CLASIFICA GOOGLE LOS RESULTADOS DE LAS BÚSQUEDAS: FACTORES DE POSICIONAMIENTO ORGÁNICO. Madrid, 2012 Disponible en: http://eprints.ucm.es/17450/1/T34083.pdf

No hay comentarios:

Publicar un comentario