Las aplicaciones de IA rara vez tratan con una mesa limpia. Combinan perfiles de usuario, registros de chat, metadatos JSON, incrustaciones y, a veces, datos espaciales. La mayoría de los equipos responden a esto con una combinación de una base de datos OLTP, un almacén de vectores y un motor de búsqueda. OceanBase lanzó seekdb, una base de datos de código abierto centrada en IA (bajo la licencia Apache 2.0). seekdb se describe como una base de datos de búsqueda nativa de IA que unifica datos relacionales, datos vectoriales, texto, JSON y GIS en un motor y expone la búsqueda híbrida y los flujos de trabajo de IA de bases de datos.
¿Qué es seekdb?
seekdb se posiciona como la versión liviana e integrada del motor OceanBase, dirigida a aplicaciones de inteligencia artificial en lugar de implementaciones distribuidas de propósito general. Se ejecuta como una base de datos de un solo nodo, admite el modo integrado y el modo cliente o servidor, y sigue siendo compatible con los controladores MySQL y la sintaxis SQL.
En la matriz de capacidades, seekdb está marcado como:
Base de datos integrada compatible Base de datos independiente compatible Base de datos distribuida no compatible
mientras que el producto OceanBase completo cubre el caso distribuido.
Desde la perspectiva del modelo de datos, seekdb admite:
Datos relacionales con SQL estándar Búsqueda vectorial Búsqueda de texto completo Datos JSON Datos SIG espaciales
todo dentro de una capa de almacenamiento e indexación.
La búsqueda híbrida como característica principal
La característica principal que impulsa OceanBase es la búsqueda híbrida. Se trata de una búsqueda que combina la recuperación semántica basada en vectores, la recuperación de palabras clave de texto completo y filtros escalares en una única consulta y un único paso de clasificación.
seekdb implementa la búsqueda híbrida a través de un paquete de sistema llamado DBMS_HYBRID_SEARCH con dos puntos de entrada:
DBMS_HYBRID_SEARCH.SEARCH que devuelve resultados como JSON, ordenados por relevancia DBMS_HYBRID_SEARCH.GET_SQL que devuelve la cadena SQL concreta utilizada para la ejecución
La ruta de búsqueda híbrida puede ejecutar:
búsqueda vectorial pura búsqueda pura de texto completo búsqueda híbrida combinada
y puede enviar filtros relacionales y uniones al almacenamiento. También admite estrategias de reclasificación de consultas, como puntuaciones ponderadas y fusión de rangos recíprocos, y puede incorporar reclasificadores basados en modelos de lenguaje grandes.
Para la recuperación de generación aumentada (RAG) y la memoria del agente, esto significa que puede escribir una única consulta SQL que realice coincidencias semánticas en incrustaciones, coincidencias exactas en códigos de producto o nombres propios y filtrado relacional en ámbitos de usuarios o inquilinos.
Detalles del motor de vectores y texto completo
En esencia, seekdb expone un vector moderno y una pila de texto completo.
Para vectores, seekdb:
admite vectores densos y vectores dispersos admite métricas de distancia de coseno, euclidiana, producto interno y de Manhattan proporciona tipos de índices en memoria como HNSW, HNSW SQ, HNSW BQ proporciona tipos de índices basados en disco, incluidos IVF y IVF PQ
El índice de vector híbrido muestra cómo puede almacenar texto sin formato, permitir que seekdb llame a un modelo de incrustación automáticamente y hacer que el sistema mantenga el índice de vector correspondiente sin una canalización de preprocesamiento separada.
Para texto, seekdb ofrece búsqueda de texto completo con:
Consultas booleanas, de palabras clave y de frases Clasificación BM25 por relevancia Múltiples modos de tokenizador
El punto clave es que los índices vectoriales y de texto completo son de primera clase y están integrados en el mismo planificador de consultas que los índices escalares y los índices SIG, por lo que la búsqueda híbrida no necesita orquestación externa.
Funciones de IA dentro de la base de datos
seekdb incluye expresiones de funciones de IA integradas que le permiten llamar a modelos directamente desde SQL, sin un servicio de aplicación independiente que media en cada llamada. Las funciones principales son:
AI_EMBED para convertir texto en incrustaciones AI_COMPLETE para generar texto usando un chat o un modelo de finalización AI_RERANK para reclasificar una lista de candidatos
AI_PROMPT para ensamblar plantillas de mensajes y valores dinámicos en un objeto JSON para AI_COMPLETE
Los metadatos y los puntos finales del modelo son administrados por el paquete DBMS_AI_SERVICE, que le permite registrar proveedores externos, establecer URL y configurar claves, todo en el lado de la base de datos.
Datos y cargas de trabajo multimodales
seekdb está diseñado para manejar múltiples modalidades de datos en un nodo. tiene una capa de indexación y datos multimodal que cubre vectores, texto, JSON y GIS, y una capa de computación multimodelo para cargas de trabajo híbridas en condiciones vectoriales, de texto completo y escalares.
También proporciona índices JSON para consultas de metadatos e índices GIS para condiciones espaciales. Esto permite consultas como:
buscar documentos semánticamente similares filtrar por metadatos JSON como inquilino, región o categoría restringir por rango espacial o polígono
sin salir del mismo motor.
Debido a que seekdb se deriva del motor OceanBase, hereda transacciones ACID, almacenamiento híbrido de filas y columnas y ejecución vectorizada, aunque las implementaciones distribuidas a gran escala siguen siendo un trabajo para la base de datos OceanBase completa.
Tabla comparativa
Conclusiones clave
Búsqueda híbrida nativa de IA: seekdb unifica la búsqueda vectorial, la búsqueda de texto completo y el filtrado relacional en una única interfaz SQL y DBMS_HYBRID_SEARCH, de modo que las cargas de trabajo de RAG y agentes puedan ejecutar la recuperación de múltiples señales en una sola consulta en lugar de unir varios motores. Datos multimodales en un motor: seekdb almacena e indexa datos relacionales, vectores, texto, JSON y GIS en el mismo motor, lo que permite a las aplicaciones de IA mantener documentos, incrustaciones y metadatos consistentes sin mantener bases de datos separadas. En funciones de IA de base de datos para RAG: con AI_EMBED, AI_COMPLETE, AI_RERANK y AI_PROMPT, seekdb puede llamar a modelos integrados, LLM y rerankers directamente desde SQL, lo que simplifica los procesos de RAG y mueve más lógica de orquestación a la capa de base de datos. Diseño amigable integrado y de un solo nodo: seekdb es un motor compatible con MySQL de un solo nodo que admite modos integrados e independientes, mientras que las implementaciones distribuidas a gran escala siguen siendo la función de OceanBase completo, lo que hace que seekdb sea adecuado para cargas de trabajo de IA locales, de borde y de servicios integrados. Ecosistema de herramientas y código abierto: seekdb es de código abierto bajo Apache 2.0 y se integra con un creciente ecosistema de herramientas y marcos de IA, con soporte para Python a través de pyseekdb e integración basada en MCP para agentes y asistentes de código, por lo que puede actuar como un plano de datos unificado para aplicaciones de IA.
Consulte el repositorio y el proyecto. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.