jueves, 25 de agosto de 2016

Captchas que digitalizan un libro a la vez

Del lado del innovador: Describiendo la evolución de un sistema en apoyo a la digitalización de libros.

Siempre que entramos a una página web que solicita un registro para disfrutar de sus contenidos o servicios, al realizar dicho formulario, al final aparecen unos recuadros como los que se presentan a continuación:
Las imágenes anteriores son ejemplos de lo que es un captcha, y quizá te preguntes cómo es que puedo relacionar un recuadro que tardas unos diez segundos en llenar con un proyecto muy importante para la conservación y preservación del conocimiento humano: la digitalización de libros.

¿Cómo es posible semejante relación? ¿Qué son los captchas realmente y porque se han vuelto tan importantes a la hora de utilizar la web? ¿Cómo apoyan a las profesiones de la información?


El principio de la ecuación: ¿cómo digitalizar un archivo?

Una vez, trabajando en una jornada laboral que parecía común y corriente, uno de mis compañeros me preguntó de la forma más amable: "¿Cómo digitalizar un archivo?". En broma, contesté que sólo necesitas levantar la tapa del escáner, acomodar el documento y pedirle a la computadora que escanee el documento. Eso es lo que la mayoría de nosotros pensamos que se debe hacer para que un documento físico se convierta en un archivo digital. Con un escáner y todo arreglado.
Pero los especialistas en estas labores saben que no es lo único que se tiene que hacer. Mi compañero quería digitalizar todo el archivo fiscal y legal de la compañía en la que estábamos trabajando. Eso significaba que tenía que escanear casi 47 años de patrimonio documental, con diferentes tipos de archivos y documentos. Diferentes temáticas, diferentes asuntos. En sí, un pequeño universo de información en un espacio digital. Retomo este caso, porque es impresionante lo que a veces puede parecer una tarea sencilla y se transforma en una labor titánica. Tardé casi dos horas en explicarle a mi compañero todas las disposiciones y normativas que tomar en cuenta y el equipo que se requiere para tener un archivo digital funcional.
Cuando terminé de explicarle, le comenté sobre otra problemática que pocos toman en cuenta a la hora de digitalizar:

Los problemas de la tecnología en reconocer palabras, caracteres o signos dentro de un documento físico.

Verán, a la hora de digitalizar un archivo, la máquina escanea toda la imagen, sin embargo,no le es posible reconocer el contenido. En sí, cuando escaneas un archivo, estás tomando una fotografía digital de dicho documento y la computadora la reproduce como tal: Una simple imagen. Pero cuando ingresas información adicional a través de distintos sistemas y programas se va recuperando información adicional.
Existe un proceso dirigido a la digitalización de textos, el cual identifican a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. Se le conoce como reconocimiento óptico de caracteres (ROC)y se expresa con frecuencia con la sigla OCR (Optical Character Recognition). De esta forma se puede interactuar con programas de edición de texto o similar. Y cabe destacar que en los últimos años la digitalización de la información  ha sido de gran importancia para la sociedad.
Y hablando en el específico caso de textos, existen y se generan grandes cantidades de información (Big Data) escrita, tipográfica o manuscrita en todo tipo de soportes, ya que hay que automatizar la introducción de caracteres evitando la entrada por teclado, lo que implica un importante ahorro de recursos humanos y un aumento de la productividad, e incluso de la mejora en calidad de servicios. Algunas de las aplicaciones para el ROC son las siguientes:
  • Reconocimiento de texto manuscrito
  • Reconocimiento de matrículas.
  • Indexación en bases de datos.
  • Reconocimiento de datos estructurados (ROC Zonal)
Y es en este punto donde entra la importancia de un proyecto como Captcha.

Antes que nada, ¿qué es un captcha?

Cuando tu te registras en una nueva página y te piden escribir lo que ves en estas imágenes:
Captchas
 ¿Cuál es el propósito de esto?, pues existen unos programas informáticos llamados bots, que tienen como objetivo imitar el comportamiento humano. Entonces para evitar que los programas y páginas tengan usuarios robots, se creó un programa que permite identificar y evitar el acceso a los bots. Este programa se llamó: "Completely Automated Public Turing Test To Tell Computers and Humans Apart" (Prueba Turing Completamente Automatizada para Diferenciar entre Computadoras y Humanos) sus siglas en inglés se leen como "captcha".
Duolingo-header-664x374Ahora, Luis Von Ahn, originario de Guatemala y creador de  este sistema (que es uno de los más usados a nivel mundial), dejó a los diecisiete años su país para estudiar la licenciatura en Matemáticas y otra en Ingeniería en Informática de la Universidad de Duke, en Carolina del Norte. Actualmente, ha vendido dos empresas a Google y también es fundador de la plataforma en línea dedicada a la enseñanza gratuita de idiomas: Duolingo. Y a continuación quiero hablar sobre la evolución de Captcha a ReCaptcha. 

500,000 horas diarias + captchas + libros= ReCaptcha

En sí, fue en el año 2000 cuando Yahoo! implementa un sistema para comprobar que cada vez que se crea una nueva cuenta de correo electrónico, es un ser humano quien lo crea y no un programa (los bots)Luis Von Ahn, logró que una pantalla desplegara una serie de letras distorsionadas que se tenían identificar y escribir en un cuadro para confirmar la creación de la nueva cuenta. Alrededor de 200 millones de veces diarias se escribían captchas alrededor del mundo, y después de Yahoo!, varias tiendas en línea, blogs y sistemas de venta en línea (como Ticketmaster) lo integraron a sus plataformas.
Aunque, no todo fue sobre rosas, pues varios usuarios se quejaban de tener que perder diez segundos de tiempo por cada captcha que se tienen que llenar para poder emplear el servicio. Lo que calculo Luis fue que son alrededor de 500,000 horas diarias las que se podían considerar como tiempo perdido para todos los usuarios forzados a utilizar su sistema. Entonces, pensó ¿cómo aprovechar esas 500,000 horas diarias en algo productivo para todos?
A partir de esta problemática, lo que realizó fue renovar la visión de Captcha y fundó: ReCaptcha, la evolución del sistema que creó y que buscaba cumplir un objetivo más productivo:

Ayudar a digitalizar un libro

Esta visión le permitió fundar ReCaptcha, la evolución de su sistema anti-spam que tenía un objetivo más productivo: ayudar a digitalizar un libro. Y ¿cómo logró está evolución? En lugar de mostrar una serie de letras aleatorias, el progama presenta una imagen de palabras escaneadas de libros físicos que los sistemas informáticos no descifraron en el proceso de digitalización. Así que, la próxima vez que veas esta imagen: descarga

 

Estás apoyando la digitalización de un libro.

Después en 2009, este proyecto fue vendido a Google y en los últimos años ha logrado digitalizar el equivalente a 2 millones de libros anualmente. Después, se comenzaron a incluir imágenes de Google Street View y las palabras a identificar son números, nombres de calles u otros datos que permiten enriquecer la base de datos de su sistema de mapas. Después, Luis Von Ahn se dedicó a crear Duolingo, con lo que él comenta que decidió trabajar en algo que realmente ayudara y una de las cosas en las que quería trabajar era en educación. Así que con base en la democratización de la enseñanza de idiomas al mantener la plataforma a que sea gratuita; y la monetización del sistema mediante la oferta de servicios de traducción de documentos, recreó un sistema siguiendo el modelo de forma similar a ReCaptcha.

Y ahora, ¿cómo entra Big Data a la ecuación?

Matemáticamente hablando, ReCaptcha utiliza dos palabras, la primera pertenece a la base de datos correctos que los usuarios han rellenado correctamente en los últimos ocho años y la segunda pertenece a... ¡BINGO! la digitalización de libros antiguos. En 2013, de acuerdo a las cifras que presenta Jorge Tafalla, Luis identificó que el ROC que se utilizaban solo era capaz de traducir el 30% de las palabras de los libros antiguos que tienen más de cincuenta años de antigüedad (esto se debe a diferentes circunstancias: tinta desgastada, páginas deterioradas, maltrato y poco cuidado del material, etc.) . En total se repiten 10 captchas diferentes de 10 personas diferentes y cuando estas 10 personas coinciden en la misma respuesta, ReCaptcha considera correcta la traducción de caracteres y asegura el nivel de calidad. A continuación presento cifras del proyecto:
  • 100 millones de palabras diarias lo que equivale a 2 millones de libros al año.

  • Sólo el 30% de palabras de libros antiguos pueden ser traducidas por los ROC que son utilizados.

  • 500,000 horas diarias suman en total por cada persona que utilizan los captchas. 

  •  Hay alrededor de 795,113 sitios web activos que utilizan el sistema ReCaptcha.

En sí, estamos hablando de un proyecto completo que aplica Big Data en una labor de preservación y digitalización sin precedentes. Esto es un ejemplo de lo que puede contribuir a las profesiones de la información, entonces quiero dejarlos con esta reflexión:

¿Cómo podemos contribuir nosotros, los profesionales de la información, a las aplicaciones de Big Data?

Considero que este tipo de preguntas son las que pueden guiar a nuestras labores y herramientas al siguiente paso de la innovación.
Luis comenzó todo este proyecto con una duda... ¿qué puedo hacer para que esas 500,000 horas diarias que los 200 millones de usuarios realizan, puedan contribuir a un fin más elevado? Unió una de sus grandes pasiones, la educación, para poder enfocarse en un objetivo y éste terminó siendo la digitalización de conocimiento con más de cincuenta años de vida. Toda esa información que requiere de mucho mantenimiento para su preservación y que por lo mismo es difícil de consultar y difundir. El hecho de que Luis orientará los esfuerzos de ReCaptcha a solucionar este problema, dio como resultado la digitalización de 2 millones de libros al año.
Así que la primera contribución que puedes realizar, es rellenar estos cuadros de diálogo que permiten al ROC alimentar sus bases de datos con mapas, texto e imágenes que ReCaptcha maneja y administra.
La segunda, innovar. El profesional de la información tiene varias problemáticas que solucionar y esto no quiere decir que la innovación requiera al profesional que aprenda a programar. La innovación viene en varias formas: Ideas, proyectos, recursos. Ser perseverante y sobre todo, curioso. ¿Por qué molestarse en pensar qué hacer con 500,000 horas diarias que la humanidad invierte en llenar un formulario? A veces el preguntarse e interesarse por pequeñas cuestiones, nos guían a lugares y proyectos que no imaginamos el alcance que pueden tener y para que cada día estas aplicaciones sean útiles, hay que hacerlas crecer. Alimentarlas, trabajarlas y redirigirlas a esos lugares inexplorados. Y la única forma de llegar a un lugar que nunca se ha conocido, hay que realizar las preguntas que nunca se han hecho y crear las soluciones que nadie se ha imaginado.
La tercera contribución, orientarse a la innovación en educación. Big Data ofrece muchas posibilidades, pero hace falta que se aplique en áreas tan importantes para el desarrollo de la sociedad y del propio conocimiento, como lo es la educación.
Entonces, espero que esta entrada sea útil para muchos involucrados en las profesiones de la información, ya que al investigar sobre el tema, me encontré con varios artículos de sitios web de informáticos, economistas, dedicados a tecnología, pero muy pocos que vincularon este proyecto con profesiones que trabajan con información. Esta es una muestra de como la tecnología abre las oportunidades de trabajo del profesional y de cómo el propio profesional puede abrir más puertas en la sociedad.
Con esto me despido, muchas gracias por leer a Aprendiz de información. 
REFERENCIAS
  1. Proyecto ReCaptcha. Google. Disponible en: Recaptcha
  2. Proyecto Captcha. Disponible en: Captcha
  3. "Luis Von Ahn: Geek latino que vendió empresas a Google" (2013). El Economista. Disponible en : http://eleconomista.com.mx/tecnociencia/2013/07/23/luis-von-ahn-geek-latino-que-le-vendio-google
  4. Reconocimiento óptico de caracteres. Wikipedia. Disponible en:  https://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres
  5. Tafalla, Jorge. "Lo que sabes y no sabes captcha". Blog Seas. Disponible en: http://www.seas.es/blog/informatica/lo-que-sabes-y-no-sabes-captcha/
  6. Estadísticas de ReCaptcha. BuiltWith Web Technology. Disponible en: http://trends.builtwith.com/widgets/reCAPTCHA
  7. Técnosfera ¿Quién es Luis Von Ahn?.  El Tiempo. Disponible en: http://www.eltiempo.com/tecnosfera/novedades-tecnologia/quien-es-luis-von-ahn/16421514

martes, 9 de agosto de 2016

Aprendiz habla sobre... Big Data

Antes que nada, quiero explicar la nueva dinámica que tienen las entradas de la Aprendiz de la Información. Con el fin de promover publicaciones y lograr un contenido mucho más completo, al hablar de una corporación, página web o de un libro, en el título del mismo se incorporan los enlaces. Esto se debe a prestar a los lectores la facilidad de consultar las fuentes de las que proviene la información que se utiliza en dicha entrada y también proveer una vinculación en caso de que deseen adquirir dicho material.
Sin más, los dejo con la entrada: "Aprendiz habla sobre...Big Data."
La información es la gasolina del siglo XXI, y la analítica de datos el motor de combustión”. Peter Sondergaard.
Todos los días producimos información. Esos compañeros de clase que vemos pegados al celular; los usuarios del metro que visitan Facebook y Twitter mientras realizan el recorrido, entre otros. Cada día y a cada minuto, miles y miles de personas desde computadoras o dispositivos que producen y envían grandes cantidades de información.
Muchos de estos paquetes de datos, pueden resultar irrelevantes para un individuo. Sin embargo, existen empresas, instituciones y grupos que recolectan esta gran cantidad de información, la analizan y sintetizan de tal forma que el producto revela factores importantes que permiten una mejor toma de decisiones para estas organizaciones. A esta gran cantidad de información se le conoce como Big Data.
Ahora, existen distintos mitos alrededor de este término y el más común es que son grupos de datos bastante voluminosos que no tienen un orden o estructura. Que son datos que navegan en la web de forma aleatoria y que no poseen un fin, hasta que una empresa o persona los analiza. Sin embargo, en esta entrada vamos a desglosar y explicar de forma concreta lo siguiente: ¿Qué es Big Data?, ¿cuáles son sus aplicaciones y uso?, y por último ¿cómo puede ayudar a las profesiones de la información y cómo éstas pueden contribuir al proceso de Big Data?
Una vez explicados los conceptos, ¿qué sigue? ¿Cómo podemos proveer nuestra mayor contribución como profesionales de la información con o gracias a Big Data? El siguiente paso se encuentra en la entrada: "De la Información al Conocimiento: Presentando a Big Data", que se va a desarrollar como ésta puede apoyarnos en nuestra tarea de llegar a lo que se conoce como una Sociedad del Conocimiento.
  Y así, comenzamos.

¿Qué es Big Data?

En su libro "Big Data: Análisis de grandes volúmenes de datos en organizaciones.", Joyanes Aguilar explica que aunque no existe unanimidad, sí hay un consenso en la fuerza disruptiva que suponen los grandes volúmenes de datos y la necesidad de su captura, almacenamiento y análisis. Aunque presentan varias definiciones que recogen varias características de Big Data, de las cuales algunas le dan prioridad al volumen, otras a la velocidad y una más a la variabilidad de las fuentes, para esta entrada me incliné más por la definición de la consultora International Data Corporation.
“Big Data es una nueva generación de tecnologías, arquitecturas y estrategias diseñadas para capturar y analizar grandes volúmenes de datos provenientes de múltiples fuentes heterogéneas a una alta velocidad con el objeto de extraer valor económico de ellos.[1]
Destaco mucho el hecho de que Big Data no sólo son los  grandes volúmenes de datos, sino el conjunto de tecnologías, arquitecturas, estrategias y procesos que trabajan estos paquetes de datos y de los cuales se obtiene un valor diferente que permite la creación de algo nuevo. Me viene a la cabeza el siguiente ejemplo: ¿Han visto como la joyería transforma un par de piedras preciosas y después de ciertos procesos metalúrgicos y de tratamiento artesanal obtienes joyas que tienen un nuevo y único valor en el mercado?.
Esos procesos que transformaron las piedras extraídas de la tierra o de las cuevas y ríos, son Big Data y las joyas que se venden en las vitrinas son los productos finales después de un arduo análisis y proceso de dichos paquetes. De esta forma, el primer mito se transforma, y con ello continuamos.
Las herramientas de manipulación de Big Data, nos hablan de tres tipos de datos en los que se dividen:
  • Datos estructurados (campos fijos, con formato. Ej.: hojas de cálculo, archivos, bases de datos relacionales),
  • Datos semiestructurados (sin formato fijo, pero contienen etiquetas que permiten separar elementos dato. Ej: XML y HTML)
  • Datos no estructurados (Sin campos fijos, archivos multimedia, formatos de texto como emails, sms, libros, servicios de mensajería).
¿Qué pasa cuándo integramos todos estos datos que ofrece Big Data con los datos tradicionales que obtenemos a través de las estadísticas (o medios cuantitativos en general). Pues resulta que pueden crear grandes oportunidades de desarrollo de nuevos proyectos y la toma de decisiones.
Otras características de Big Data que  menciona Doug Laney es que se utilizan las “3V” como activos de información y estos activos son: Volumen, Velocidad y Variedad. Ésto requieren formas innovadoras y rentables de procesamiento de la información que permiten su comprensión y la toma de decisiones.

¿Aplicaciones y uso de Big Data?

Esta pregunta resulta interesante. Hemos hablado de lo que es Big Data, pero ¿el hecho de conocer la naturaleza y origen de un concepto nos permite entender su uso? Es aquí donde abordo el mito #2: "Big Data es una innovación del Siglo XXI", lo cual es incorrecto y esto lo explico a continuación.
Para lograr que la Big Data trabaje en pos del crecimiento y desarrollo de distintas áreas se analizan por ejemplo: palabras, localizaciones, elementos de la naturaleza, comportamiento humano, actividad económica, entre otros elementos. En sí, existe la extracción de conocimiento de bases de datos desde el siglo XIX y un claro ejemplo son los el uso de cómputo temprano a escala masivo (un ejemplo de esto son los censos que se realizan desde 1890 en Estados Unidos) hasta la aparición de sistemas paralelos e interconexión de incontables bases de datos (que son sistemas que utilizan empresas como Google, Facebook, Amazon, entre otros).
Es decir, a partir del análisis de elementos tan simples como los que se mencionaron en el párrafo anterior, se produce información que puede tener un efecto positivo en la eficiencia y productividad que han tenido las TIC en los últimos años. Algunos ejemplos que menciona Hilbert que demuestran la aplicación de Big Data en aras del desarrollo van desde el rastreo de palabras para la predicción de acciones o actividad, como el utilizar las localizaciones para obtener información sobre el flujo de tránsito, condiciones de rutas o reportes del clima. Incluso el permitir obtener datos importantes del comportamiento humano y su actividad económica, además de obtener datos de la propia naturaleza.
En sí, las aplicaciones de Big Data son diversas y de acuerdo a los objetivos que uno persiga los resultados de dichos análisis y uso de estas herramientas serán tan útiles como importantes para la toma de decisiones.  Y a continuación, se presentan ejemplos de las  variadas fuentes que utilizadas por Big Data:
o          Redes sociales como Twitter y Facebook
o          Imágenes digitales y videos
o          Información geo-espacial de los teléfonos celulares
o          Información personal recopilada por las distintas agencias de gobierno
o          Sensores de temperatura, viales, eléctricos, etc.
o          Logs de búsquedas en buscadores y bases de datos
Quisiera aquí, realizar una ligera intervención, ya que nuestro siguiente apartado que relaciona a los profesionales de la información con Big Data, toca una temática que considero importante resaltar. ¿Qué pasa con el ámbito educativo?. Acaso el uso de estas bases de datos de las cuales se extrae información sobre el comportamiento humano ¿no nos puede ser útil para los planes de estudio o siquiera para desarrollar nuevos métodos didácticos? ¿qué tal programas de fomento de lectura?. Es aquí donde tomó la frase de Jeff Jaffe, presidente ejecutivo del W3C el cual menciona:
“Lo primero que tienen que hacer los gobiernos es hacer más datos abiertos. El futuro social de la educación está en los datos, en la calidad de los mismos, los datos abiertos (open data), la libertad de los datos, que éstos puedan fluir para el acceso de cualquier persona y que, a su vez, puedan ser aprovechados.”
Es aquí donde Jeff habla del movimiento Open Data que se define como una “filosofía y práctica que requiere que ciertos datos estén disponibles libremente para cualquier persona sin restricciones de copyright, patentes y otros mecanismos de control”. En esta práctica, las grandes cantidades de datos procedentes de diferentes organizaciones estén a disposición de la sociedad y hay que destacar que estos datos se refieren a distintas temáticas, pueden ser médicas, geográficas, meteorológicas o incluso datos de proyectos de investigación investigados con fondos públicos o libros digitalizados de las bibliotecas.

¿Cómo Big Data puede ayudar a las profesiones de la información y cómo éstas pueden contribuir a la misma?

Esta es una pregunta truculenta, porque muchas veces consideramos que al ser tecnología, se requiere más de informáticos, ingenieros y otras profesiones relacionadas al campo tecnológico. Pero en este caso, quiero traer a colación una plática que tuve con un compañero de trabajo, que es ingeniero en sistemas.
Él considera que Big Data se enfoca desde su ramo a tres acciones: Captura, Almacenamiento y Análisis de datos. Pequeño detalle, desde la perspectiva de las profesiones de la información podemos ampliar más estas acciones, puesto que nuestras profesiones nos llevan a tomar en cuenta: Uso, Contexto, Aplicación, Objetivos, Efectividad y Eficacia. En sí, no sólo vamos hacia la parte de la preservación y cuidado  de los datos, sino de su administración, difusión y sobre todo de su uso.
El ejemplo más claro que puedo ofrecer para explicar la relación de las profesiones de la información con Big Data, es la propia Sociedad de la Información en la que algunos países nos encontramos involucrados. Y todo esto es gracias a Martin Hilbert que presenta un argumento en donde considera que Big Data  se entrega como un prospecto de costo-efectivo en la toma de decisiones en el desarrollo crítico de áreas como la salud, el área laboral, productividad económica, seguridad, desastres naturales y administración de recursos. Lo que provee oportunidades para las ciudades en desarrollo.
Este cubo, el propio Hilbert lo denomina como el Cubo de desarrollo TIC. Y es muy importante porque revela de forma simple como llegar de la Sociedad de la Información a la Sociedad de Conocimiento a través de la regulación e incentivos que se propongan y realicen a la hora de trabajar con grandes cantidades de datos y diferentes tecnologías (como Big Data).
CUBE ICT Hilbert En la parte superior, se observa lo que se conoce como la Sociedad de Información, en dónde se involucra la Infraestructura, servicios genéricos de software y las capacidades y habilidades humanas que son las que utilizan y crean dichos servicios e infraestructura, pero como tal no hay una producción de conocimiento, sólo uso de herramientas y producción y masificación de lo que ya existe. Del lado izquierdo, están los recuadros "Regulación" que se reconoce como retroalimentación negativa y los "Incentivos" que son las retroalimentaciones positivas.
Dichos términos se refieren a políticas, normativas, etc., las cuales marcan un contexto social que le da forma a las diferentes circunstancias y estrategias que afectan los análisis de Big Data, así como también el cómo dichos análisis nos afectan a nosotros como sociedad.
Por último, se presenta la cara frontal, que tiene aplicaciones que están enfocadas a mejorar diferentes ámbitos de la sociedad y que al tener un impacto y desarrollo, éstas se ven afectadas ya sea de forma positiva o negativa y producen algo nuevo, distinto, en sí son aplicaciones que nos llevan a una Sociedad de Conocimiento que aprovecha esta información en beneficio de proyectos, programas y sistemas que la sociedad utiliza cada día.
En este punto quiero hablar un poco sobre un referente profesional bibliotecólogico y que trabaja con Big Data. Su nombre es Amy Affelt quien es directora de Database Research Worldwide, en Compass Lexecon, la cual es una consultoría global económica. Es aquí donde Amy, busca, analiza y transforma información y datos en conocimiento viable para Doctores economistas que testifican ser expertos en litigación. Es una frecuente escritora y conferencista sobre Big Data, Internet de las cosas, entre otras temáticas. Y tiene un grado Master en Bibliotecología y Ciencias de la Información por parte de Dominican University.
Ella describe distintas aplicaciones para comprender concretamente con las cuales los bibliotecarios y profesionales de la información aprovechen las oportunidades que ofrecen estas herramientas y tengan su lugar en el mundo del Big Data. Además, cabe destacar que toda nueva variación de nuestras tradicionales habilidades para encontrar, organizar, analizar y hacer accesible la información para la toma de decisiones, lleva a una crisis terminológica que trata de alejarnos de, como dicen los anglófonos, y por lo tanto se les reconoce como:
o          Analista de datos
o          Científico de datos
o          Especialista de datos
o          Gestor de datos
o        Bibliotecario de Datos
En sí, son algunos de los títulos que podemos utilizar para llamar al bibliotecario o profesional de la información que ha decidido incursionar en lo que Davenport menciona como el científico de datos que es como un “profesional con la formación y la curiosidad para hacer descubrimientos en el mundo del Big Data”. Y aunque hay algunas escuelas de profesiones de la información en Estados Unidos que han comenzado a actualizar su currícula incorporando las competencias específicas necesarias para el análisis de datos como: programación, estadística, técnicas analíticas, visualización de datos, almacenamiento en la nube, privacidad y seguridad de datos, entre otros (por ejemplo, el nuevo Master of Information and Data Science (En línea) de la Universidad de California en Berkeley). Aún no hay programas de estudio serios que trabajen con este tipo de tecnologías. No hablemos del caso de México hasta dentro de otra ocasión.

¿Y ahora, qué sigue?

Reflexionar. En esta entrada quiero destacar tres aspectos que considero importantes:
  • Necesidad de entender como Big Data nos afecta como sociedad y profesionales.

  • Reflexionar sobre la falta de aplicación y uso de estas tecnologías en ámbitos más humanistas y sociales, no sólo en cuestiones económicas o administrativas.

  • La falta de preparación, entendimiento y sobre todo de involucrarse en este mundo Big Data por parte de los profesionales de la información.

En sí todas están relacionadas. Y con esto, quiero traer a colación la conversación con mi compañero ingeniero en sistemas. Cuando hablamos de Big Data, la mayoría lo relaciona con cuestiones económicas, productivas, beneficiosas o costosas... pero de nuevo olvidamos la parte social y humana que conllevan este tipo de herramientas y sobre todo los objetivos que se pueden adquirir en dichos campos. En el caso de mi compañero, sólo veía la parte de almacenamiento, pero nosotros que conocemos que existe un ciclo de información y cómo se desarrolla, sabemos que es sólo una ínfima parte de lo que ésta significa.

¿Es necesario involucrarnos en este mundo de grandes volúmenes de datos?

Considero que sí, y no para olvidar lo que hemos hecho hasta ahora, sino para fomentarlo, mantenerlo, promoverlo y mejorarlo. Lo que hacemos es organizar y administrar información para que se pueda crear nuevo conocimiento. Preservar para conocer. Difundir para utilizar. Informar para crear.

¿Nosotros podemos dar el enfoque social y humanista que necesita Big Data para trabajar en pos del crecimiento?

Sí, porque tenemos el acercamiento a comunidades y usuarios. Tenemos los estudios y las capacidades. Sólo nos hace falta un interés, un empujoncito, siquiera detenerse a pensar el cómo utilizar estas herramientas para preservar y dar a conocer lo que le interesa a mis usuarios o a mí como profesional.
Tan sólo es ponerse a pensar en las posibilidades, trabajar y alcanzar una meta. En sí, es aprovechar recursos e innovar.
Con esto último me despido.
Muchas gracias por leer a esta Aprendiz.
REFERENCIAS
[1] Joyanes Aguilar, L. (2014). Big Data: Análisis de grandes volúmenes de datos en organizaciones. México: AlfaOmega.
[2] Hilbert, Martin (2013). Big Data for Development. From Information to Knowledge Societies. Pág 1.  Disponible en: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2205145