Acceso
a la información: recuperación
Como se ha comentado en el blog anterior, la
recuperación de la información que se obtiene al realizar una búsqueda se puede
resumir en 3 grupos, en los que encontramos el “rastreador”, el cual recopila
información de las páginas web, la indexación (se crean índices de la
información recopilada) y finalmente obtenemos los resultados.
Pero lo cierto es que el proceso
de recuperación de la información, no es tan simple como se ha mencionado en
la agrupación anterior, sino más bien, en dicho proceso podemos encontrar
multitud de análisis, procesos o métodos enfocados a proporcionar los
resultados que el usuario pretende encontrar.
A continuación, se explicará el Proceso de
recuperación de la información.
De forma general en el proceso se realiza la
representación , el almacenamiento, organización y acceso a elementos de
información.
En dicho proceso podemos encontrar un corpus o biblioteca
documental de tamaño variable, que gracias a la indexación, almacenamiento
y por medio de algoritmos matemáticos, estadístico semánticos, se puede
estructurar, interrogar y representar.(Blázquez, M. 2012)
Cuando se realiza cualquier búsqueda, se puede
distinguir las siguientes fases:
1. La
consulta del usuario
2. La
interfaz de consulta: en ella el algoritmo* de recuperación se comunica con
los modelos de recuperación, como los modelos booleanos, vectoriales,
probabilísticos o de texto estructurado entre otros.
(*Algoritmo se refiere al conjunto ordenado de operaciones sistemáticas que permite hacer un cálculo y hallar la solución de un tipo de problemas)
3. Fase
de representación de la información: la consulta es depurada y normalizada,
por lo que se trata en esta fase de adaptar los términos o palabras del
usuario, para obtener una buena búsqueda. Los resultados suelen ser ordenados
según la precisión obtenida, el número de clics o de visualizaciones entre
otras características que se describirán más adelante.
Para poder llevar a cabo el proceso de recuperación de información, debe existir una consulta, una base sobre los documentos que hay en la red, como una especie de biblioteca gigante.
Todo ello debe existir para poder hablar del proceso de recuperación, en dicho proceso se describen otra serie de etapas, en las cuales se trabaja con la información que se ha obtenido en la red, con el objetivo de organizarla, a fin de poder obtener el resultado o los resultados más deseados por los usuarios.
En varias ocasiones, muchos buscadores (Google, Bing...) pretenden averiguar si el resultado que se ha proporcionado es el que el usuario necesitaba, para ello suelen tener en cuenta el tiempo que se tarda en acceder a los enlaces, o si se reformula la consulta, pero dicha determinación es una tarea realmente difícil, ya que entran muchas cuestiones en juego, como el objetivo del usuario, ya que podría ser el mismo tema, pero busca información diferente, tales como noticias, bibliografía o historia, por lo que resulta difícil de interpretar desde los programas informáticos, lo que realmente busca el usuario.
Pero aún así los buscadores cada vez ofrecen mayores opciones de búsqueda, los cuales han facilitado la obtención de resultados deseados.
➤LA CONSULTA: se origina por una necesidad de
información por parte de los usuarios, los cuales formulan una pregunta o
consulta.
➤La BASE del conocimiento: se suele denominar
colección, la cual hace referencia a una biblioteca de documentos
seleccionados previamente por métodos de webcrawling. Se suele poseer una
colección de referencia, la cual es usada como modelo experimental de
recuperación de la información.
El crawling o el webcrawling, permite formar la
base del sistema de recuperación, mediante esquemas de las páginas web, en
los que se han extraído los enlaces, las etiquetas o los párrafos.
➤DOCUMENTOS: todo tipo de información independiente, algunos ejemplos son; artículos, monografías, páginas web y textos.
➤TREC (http://trec.nist.gov/): es una de las colecciones más importantes
conocida internacionalmente, usada para la recuperación de la información, fue
creada por NIST (National Institute of Standards and Technology, http://www.nist.gov/)
➤SISTEMA DE RECUPERACIÓN DE INFORMACIÓN: cabe
destacar el algoritmo de recuperación, en el cual se encuentran un conjunto de
métodos, tratamientos informáticos, matemáticos y estadísticos.
También se lleva a cabo, la depuración, la
indexación, la comparación de consultas o de modelos de recuperación.
En cuanto a los mecanismos de depuración, cabe
señalar que se identifican los casos especiales, se normalizan los textos,
dichos procesos hacen referencia a la conversión a minúsculas, a la eliminación
de los signos de puntuación, los acentos y las palabras vacías.
En la indexación se asigna a cada palabra un
identificador del documento, en los que podemos encontrar un indicador de
posición (párrafo o línea en la que se encuentra) y el número de identificación
de esa palabra, siendo un número único e irrepetible. Todo ello permite conocer
la posición de la palabra o término de los documentos de colección.
En la siguiente imagen se observa de forma
esquemática, el proceso de indexación de la información
Otro proceso muy conocido es la Tokenización, el
cual se encarga de descomponer los textos de una colección en sus unidades
mínimas, es decir, en palabras o términos, para formar de esta manera una serie
de listas que son usadas en el análisis
Como se ha visto por el momento, los procesos que se llevan a cabo para ofrecer los resultados de búsqueda, no son sencillos, sino mas bien sabemos que implica un conjunto de procesos y etapas que deben realizarse para poder ofrecer el mejor resultado, que busca el usuario.
PARA SABER MÁS: Posicionamiento en Google.
Un tesis llevada a cabo por Ricardo Carreras, de la Universidad Complutense de Madrid, explica los criterios que se establecen para posicionar o hacer que aparezca una página antes que otra. Las técnicas de posicionamiento usadas, son conocidas como SEO (search engine optimization ).
Se sabe que Google usa su propio algoritmo secreto que tiene en consideración más de 200 factores, a al hora de llevar a cabo la búsqueda.
Algunos de los criterios de posicionamiento mas usados son los siguientes:
1- Presencia de la palabra clave en la etiqueta del título: eso básicamente hace referencia a que la palabra clave de la búsqueda esta localizada en el propio título, y de esa forma se clasificarán las páginas, influyendo en que unas se posicionen por encima que otras.
2- Extensión del texto de la página web (número de palabras): se han observado que la mayoría de las páginas web en primera posición poseen más de 200 palabras.
3- Numero de enlaces entrantes (enlaces, vínculos o hipertextos): páginas que reciben más de 400 enlaces entrantes, están entre los primeros resultados.
4- Page Rank: considera los enlaces entrantes o votos y la calidad de esos enlaces entrantes.
5- Densidad de la palabra clave en el texto de la página: google, premia una densidad considerable de la palabra clave y se suele realizar dividiendo el número de veces que aparece la palabra clave sobre el total.
6- Edad del sitio web: se suele valorar a las páginas relativamente antiguas más que a las de origen reciente.
7- Número de enlaces entrantes a todo el sitio web: para encontrarse sobre los primeros resultados, se requiere más de 100.000 enlaces entrantes para todo el sitio web.
BLIBLIOGRAFÍA:
- BLÁZQUEZ OCHANDO, Manuel. Técnicas avanzadas de recuperación de información: procesos, técnicas y métodos / Manuel Blázquez Ochando .– Madrid: mblazquez.es, 2013. Disponible en: http://mblazquez.es/wp-content/uploads/ebook-mbo-tecnicas-avanzadas-recuperacion-informacion1.pdf
- Ricardo Carreras Lario, CÓMO CLASIFICA GOOGLE LOS RESULTADOS DE LAS BÚSQUEDAS: FACTORES DE POSICIONAMIENTO ORGÁNICO. Madrid, 2012 Disponible en: http://eprints.ucm.es/17450/1/T34083.pdf