¿Qué es Diffbot?
Diffbot es un desarrollador de algoritmos de aprendizaje automático y visión artificial y API públicas para extraer datos de páginas web / raspado web para crear una base de conocimiento. La compañía fue fundada en 2008 en la Universidad de Stanford y fue la primera compañía financiada por StartX (entonces Stanford Student Enterprises), el fondo de capital de riesgo en el campus de Stanford
2 inteligencias artificiales desarrolladas por OpenAI, llevan desde el año pasado sorprendiendo al mundo con su capacidad para responder y completar textos de la misma forma en que podría hacerlo un ser humano.
Un ejemplo paradigmático de sus capacidades pueden observarse en el siguiente tuit, en el que se ve a GPT-3 rellenando datos históricos y demográficos sobre EE.UU en un documento Excel: que Alaska se convirtió en un estado en 1906 y que Michigan cuenta con una población de 10,3 millones de personas.
Datos ambos muy factibles, en apariencia, pero… totalmente falsos. El problema de las IA como GPT-3, conocidas como ‘modelos de lenguaje’ es que son buenas imitadoras (es decir, capaces de reproducir patrones de escritura humanos), pero no están capacitadas para escribir datos ajustados a la realidad porque, sencillamente, no entiendem lo que leen.
Inteligencia artificial que interpreten y entiendan en su contexto lo que leen
Y eso reduce terriblemente la utilidad de las inteligencias artificiales. De modo que existen ya intentos de resolver este problema. La startup Diffbot, por ejemplo, ha desarrollado una IA dedicada a la tarea de aprender (o, como mínimo, extraer aquellos datos que sea capaz de reconocer) mediante el revolucionario método de leer. Leer mucho.
el papel de la IA de Diffbot es crear lo que se llama un gráfico de conocimiento: una red de relaciones dotado de un sistema de ‘razonamiento’ que le permite llegar a nuevas conclusiones a partir de los datos extraídos. Diffbot escanea la red y actualiza su gráfico de conocimiento cada 4-5 días, añadiendo hasta 150 millones de entradas en cada ocasión.
Y además, aplica a sus conocimientos algoritmos más antiguos de machine learning, que le permiten identificar información obsoleta y sustituirla por otra más novedosa.
Es tan exhaustivo que no se conforma con leer el texto del HTML, sino que aplica algoritmos de visión por computadora para extraer información también de imágenes y vídeos. Y además, navega como nosotros: revisando las webs de arriba a abajo, cambiando entre pestañas y clicando en ventanas emergentes.
Y en un futuro cercano, sus creadores planean dotarlo de un modelo de lenguaje
Aplicaciones de Diffbot en el mundo real
Pero, ¿qué utilidad puede tener esto, al margen del mero interés científico? Bueno, pues Diffbot ya cuenta con 400 clientes que pagan por extraer información de su gráfico de conocimiento, grandes empresas que lo usan para tareas bastante diversas:
- Snapchat: Recurre a Diffbot para extraer la información más relevante de las páginas de noticias.
- DuckDuckGo: Lo usa para crear cuadros de respuesta similares a los que lleva tiempo ofreciendo Gooogle.
- Nike y Adidas: Estas grandes marcas deportivas utilizan el conocimiento extraído por Diffbot para localizar falsificaciones.
- NASDAQ: Extrae información útil para investigaciones financieras.
- Zola: La popular app de planificación de bodas recurre a esta tecnología para extraer imágenes y precios para la elaboración de listas de boda.
y otras muchas mas. Como veis , se esta generando el mayor robot de conocimiento del planeta. Esperemos que sea para un bien superior. Ya veremos.