Martes, 11 de julio de 2006
Etiquetas como extracción de información simple y abordable
Diversos sistemas en la Web permiten clasificar contenidos a través de “etiquetas”, y la capacidad de interrelación que generan ha resultado revolucionaria. Pretendo mostrar la importancia de esta técnica y sus posibilidades.
La Web semántica y los arcos
Mucho se habla en estos días acerca de la “Web semántica”, o sea, la normalización de las aseveraciones fundamentales de los contenidos en la Web como un arco semántico entre dos objetos. Por ejemplo se podría resumir el presente texto como la relación “resulta” entre los objetos “clasificación por etiquetas” y “útil y barato”.
Este arco podría ser representado en RDF a través de su sintaxis XML y así quedar preparado para ser consumido, por ejemplo, por un motor de búsqueda capaz de responder de forma automática a preguntas tales como “¿Resulta útil la clasificación por etiquetas?” (lo cual llevaría directamente a leer el presente documento).
Y sin embargo, RDF es caro: requiere que el autor (o tal vez un complejo programa capaz de interpretar lenguaje natural) vierta resúmenes de cuáles son las preguntas que responde su texto, en un formato antinatural y complejo.
Qué son las etiquetas
A diferencia de una clasificación o taxonomía, que consiste en separar lo existente, las etiquetas son palabras (algunas pueden surgir de la combinación de varias), cuyo principal propósito es unir lo similar. Los contenidos que tratan lo mismo, comparten etiquetas.
Las etiquetas generan “localidad” en cualquier dimensión de la información.
Candidatos naturales
En la dimensión geográfica, localidades naturales son los nombres de países, ciudades, barrios. En la dimensión temporal lo son el año, la temporada, la década o el siglo. En la de las personas, los apellidos son buenos candidatos, en la medida en que son altamente selectivos (únicos, por ejemplo Borges es un buen candidato mientras Rodríguez por sí sólo no lo es) o combinados con nombres si no lo son.
En este sentido, se verá, muchos candidatos naturales de etiqueta son también nombres de categorías taxonómicas. Sin embargo, en seguida veremos cómo la correspondencia no es directa.
Eliminación de la jerarquía
En una clasificación taxonómica que podríamos imaginar, sería probable encontrar el contenido de “El Aleph” dentro de una categoría “Cuentos de Borges” que reside a su vez dentro de “Obras de Borges”, en “Literatura Argentina del siglo XX”, dentro de “Literatura Argentina” y finalmente en “Literatura”.
Un etiquetado equivalente podría generar “borges sigloXX argentina cuento”, un total de cuatro etiquetas que no implican una separación progresiva de lo general a lo particular, sino que relacionan al contenido con todo otro contenido en cuatro dimensiones: el autor (el contenido encontrará localidad en la obra de Borges), el tiempo (se lo verá relacionado al siglo XX), el lugar de producción (Argentina) y el formato (se asociará a todo otro cuento).
Los niveles medios ausentes
La principal desventaja de los etiquetados con respecto a las taxonomías es la ausencia de los niveles medios. Por ejemplo, si nos quedamos con la clasificación anterior, “El Aleph” no se encuentra en la localidad “Literatura” ni podría ser encontrado a través de la búsqueda “literatura+argentina”, lo cual constituiría una falta grave a las posibilidades de recuperación.
Sin embargo, los niveles medios pueden ser generados por medios manuales o automáticos. Una opción es crear una (o varias) taxonomías de etiquetas, resolviendo el problema. La desventaja es que una persona deberá reflejar esos niveles jerárquicos y eso lo convierte en un procedimiento menos oneroso que la taxonomía sobre contenidos, pero más que el sencillo etiquetado.
El conocimiento para generar los niveles medios a partir de las etiquetas se puede obtener, sin embargo, de las mismas etiquetas, si el universo es suficientemente amplio. Por ejemplo, si en una muestra bien grande se obtiene que existen contenidos etiquetados como “cuento” y como “literatura”, otros como “literatura” y “novela” pero nunca como “cuento” y “novela”, se puede inferir que cuento y novela son etiquetas separadoras (subclasificadoras) de “literatura”.
Del mismo modo, “sigloXX” aparece con “borges” y con muchos otros recursos, pero nunca aparece otro siglo junto con “borges”, lo cual indica que “borges” es una especialización de “sigloXX”.
La descripta y otras técnicas permiten jugar con las intersecciones de etiquetas en contenidos, generando racimos (clusters) de contenidos relacionados entre sí. Sin embargo, este clustering trabaja con información previamente depurada (las palabras más importantes y relativas al contenido) y son, por lo tanto, mucho más fiables que aquellos racimos producidos por la mera coincidencia de palabras iguales dentro del texto.
Folksonomías y ruido
Los sistemas de etiquetas reflejan en gran parte la opinión y la capacidad de interpretación de quien (o quienes) las asignan.
En muchos casos, son los autores o editores los que asignan etiquetas, pero los hay donde las mismas son abiertas (cualquier usuario puede asignar), y toman el nombre de “folksonomías”.
La diferencia no es menor y produce al menos tres costados: el etiquetado por el usuario (abierto) suele resultar más útil para él mismo; el número de etiquetas que un recurso tendrá será mayor (abriendo posibilidades de relación); finalmente, existirá una mayor probabilidad de que los diversos criterios utilizados generen etiquetas contradictorias o irrelevantes (ruido en el etiquetado).
Algunos casos notables
Flickr
El sitio permite la carga de fotografías de propiedad autoral de sus usuarios. Ellos mismos asignan etiquetas a esas fotos, que permiten luego la búsqueda.
La recuperación de las fotografías por etiqueta se puede realizar para un usuario específico (fotos de un usuario con una etiqueta determinada) o bien para todos los usuarios.
El ruido en el etiquetado es visible en la ambigüedad de ciertas palabras (si uno pide la etiqueta “india” puede aparecer tanto fotos del país como de una persona aborigen de américa), pero el efecto global se percibe como muy bueno y ha hecho que este sitio Web se posicione al tope de su categoría.
Technorati
El sitio permite a los autores (en esto es muy estricto) elegir las etiquetas para los artículos de sus weblogs. Con las etiquetas, el sitio permite que los usuarios realicen búsquedas o se suscriban a un “feed” (lista de vínculos).
Del.icio.us
El objeto es etiquetar todo tipo de contenidos disponibles en la Web. Las etiquetas usadas por otros para el mismo sitio aparecen como sugerencias. Se pueden hacer consultas por etiquetas, recorrer las propias y los contenidos etiquetados por los demás. También provee una API para consumir estos datos desde aplicaciones (el navegador Flockr la utiliza, por ejemplo).
Conclusiones
La gran densidad semántica de unas pocas palabras asociadas a contenidos genera un abanico enorme de posibilidades que compiten en el universo de la Web semántica con iniciativas tan pretensiosas como RDF.
Por: Ignacio Nicolás Rodríguez | Filo | Comentarios (0) | Referencias (0)
Comentarios
Comentar




