octa². La infraestructura alrededor de octa.
El modelo es un componente. La infraestructura es lo que compone. octa² combina seis algoritmos que corren en paralelo: experimentación online, ranking ensemble de señales, rotación multi-modelo, aprendizaje de política de secuencia, destilación de modelos y loop de análisis macro. Cada loop valida inputs para los demás. Los aprendizajes validados vuelven al corpus que reentrena octa. Los resultados mejoran en cada campaña, incluso entre releases del modelo.
El modelo se reentrena con cadencia de releases. El proceso se vuelve más preciso cada hora.
La mayoría de los pitches de "AI for sales" dicen vagamente que "el modelo sigue aprendiendo". No lo hace, no en tiempo real. Los pesos del modelo cambian cuando aterrizan runs de entrenamiento. Lo que cambia continuamente es la orquestación alrededor del modelo: qué variante se publica, qué señal se rankea, qué contacto se enruta, qué ejemplar se recupera y qué experimento se aprueba. Eso es octa². El modelo es un componente. El proceso es el moat.
octa se reentrena con una cadencia de releases: preentrenamiento continuo más RL de horizonte largo sobre el corpus. Los pesos cambian semanal o mensualmente, no por campaña.
Experimentación online, ranking ensemble de señales, rotación multi-modelo, aprendizaje de política de secuencia, destilación de modelos y loop de análisis macro. Cada uno corre su propio loop con su propia cadencia.
Cada envío, respuesta, reunión, clic en landing page y transición de etapa de deal. La infraestructura convierte el flujo crudo en aprendizajes validados por segmento.
Los aprendizajes validados vuelven al siguiente preentrenamiento y fine-tune de octa. El proceso alimenta al modelo. El modelo alimenta al proceso. Compuesto.
Los grandes sistemas compuestos nunca fueron un solo algoritmo.
Los sistemas que definieron búsqueda, investigación y juego no fueron modelos únicos ni algoritmos únicos. Fueron infraestructuras que combinaban muchos componentes, con resultados volviendo a los inputs. octa² sigue la misma forma, aplicada a GTM.
Cientos de señales débiles, rankeadas continuamente
Ninguna señal decide sola. Un ensemble combina muchas, el ranking se reajusta con resultados de click-through y el índice se reevalúa de forma continua. La infraestructura de ranking, no una señal aislada, es el moat.
Búsqueda + self-play + un modelo aprendido
Tres algoritmos se alimentan entre sí: tree search propone movimientos, self-play genera nuevas posiciones de entrenamiento y la red aprende de los resultados. Quita cualquiera y el sistema colapsa. La combinación es la que aprende, no la red sola.
Tests controlados continuos, políticas actualizadas por resultados
Las variantes compiten por tráfico. Los resultados se miden. Los ganadores reciben más asignación por segmento. La plataforma es quien aprende; cualquier modelo dentro es solo una herramienta que usa para redactar variantes.
Seis algoritmos GTM corriendo alrededor del modelo octa
Experimentación online, ranking ensemble, rotación multi-modelo, aprendizaje de política de secuencia, destilación de modelos y loop de análisis macro. Cada loop valida inputs para los demás. Los aprendizajes validados vuelven al corpus que reentrena octa.
Seis loops corriendo en paralelo. Cada uno afina a los demás.
Ninguna de estas ideas es nueva por separado. La combinación es el punto. La experimentación online ajusta las variables. El ranking ensemble decide prioridad. La rotación multi-modelo elige el output. La política de secuencia decide el siguiente paso. La destilación baja el costo. El loop de análisis macro observa todo y ajusta. La infraestructura es el moat.
Experimentos controlados por segmento. Bloqueos de variable. Loops de hipótesis.
graph8 ejecuta experimentos controlados continuos sobre cada variable de campaña que importa: asuntos, horarios de envío, profundidad de cadencia, mix de canales, layout de landing page y openers de voz. Cada experimento corre en una pista rápida, media o lenta según volumen. Cada resultado validado registra la variable, el segmento, el tamaño del efecto, la dirección, la confianza y el tamaño de muestra. Los ganadores se bloquean por segmento. La base de conocimiento se acumula. Los experimentos futuros se proponen contra aprendizajes previos, no desde cero.
Muchas señales débiles, una salida rankeada, los resultados reajustan las señales.
Cuentas para prospectar, contactos dentro de cuentas, señales de intent que vale la pena activar, variantes de secuencia que vale la pena enviar: cada una se puntúa combinando muchas señales débiles en un solo ranking. Ninguna señal decide sola. Los resultados, aperturas, clics, respuestas, reuniones y closed-won, vuelven y reajustan las contribuciones de cada señal. El ranking mejora continuamente sin requerir reentrenamiento del modelo.
Generador. Crítico. Editor. Los roles rotan entre modelos por tarea.
Para cada output que importa, un email frío, un borrador de respuesta, una landing page o un guion de llamada, compiten varios modelos. Los roles rotan: el generador propone, el crítico ataca, el editor pule. Participan modelos open-source, modelos frontier, octa-mini, octa y octa-reasoning. La verificación determinista decide el ganador donde puede; el scoring estructurado decide donde no. El output ganador se publica. El log de competencia alimenta el entrenamiento.
Cada toque es un estado. La siguiente acción es una política aprendida.
Una campaña es una secuencia de estados: contacto frío, email abierto, respuesta positiva, reunión agendada, calificado, cerrado. Desde cada estado hay muchas siguientes acciones posibles. octa² modela la política de estado a acción por segmento y la actualiza con resultados reales. El modelo elige la siguiente mejor acción; la orquestación aplica guardrails; el resultado realizado actualiza la política. La siguiente campaña empieza con una tabla de routing más precisa.
El teacher frontier genera ejemplares. Los students open-source recuperan.
Los modelos frontier generan ejemplares canónicos para tareas GTM difíciles. Un pool de retrieval de nearest-neighbor sirve esos ejemplares en contexto a students open-source más baratos. La calidad se mantiene. El costo cae de forma material. La biblioteca de ejemplares crece con el tiempo, así que incluso con pesos estáticos en los students, el output mejora a medida que el pool se profundiza.
Reportes semanales y mensuales cierran el human-in-the-loop.
Un servicio de análisis macro genera reportes semanales y mensuales en toda la plataforma: capacidad, resultados de clientes, desempeño de algoritmos y cambios de segmento. Los humanos revisan, el sistema corrige curso, los algoritmos se reajustan y el corpus se reetiqueta. El loop macro vive por encima de todo lo demás y mantiene honesto al sistema completo. Los otros cinco loops corren cada hora. Este corre cada semana. Ambos son necesarios.
El output de cada algoritmo es el input de otro algoritmo.
Son seis loops, pero están conectados. Los aprendizajes validados de experimentación online se convierten en nuevas señales de ranking. Los outputs ganadores de la rotación multi-modelo se convierten en ejemplares teacher para la destilación. Los estados escasos o de baja confianza de la política de secuencia se convierten en hipótesis candidatas para el siguiente experimento. El loop de análisis macro reajusta qué algoritmo corre para cada tarea. La composición es estructural, no una metáfora.
La infraestructura alimenta el siguiente run de entrenamiento.
El loop del día a día es la infraestructura. Pero la infraestructura no queda aislada del modelo. Aprendizajes validados, ejemplares ganadores, políticas de secuencia sobrevivientes y rankings reajustados vuelven al corpus que reentrena octa. Cada release del modelo se apoya en un set de entrenamiento más rico, más preciso y más segmentado que el anterior.
La cadencia de release del modelo es semanal a mensual. La cadencia de la infraestructura es horaria. Las dos cadencias se alimentan entre sí. Eso es octa².
Capturar. Etiquetar. Validar. Entrenar. Publicar.
Los cinco pasos que convierten las campañas de ayer en el modelo de la próxima semana.
Capturar
Cada resultado de campaña, cada variante ganadora, cada transición de estado a acción y cada ejemplar destilado entra al corpus.
Etiquetar
La infraestructura etiqueta la estructura, segmento, variable, canal e intent, sin humanos en el hot path. Los humanos revisan agregados.
Validar
Replay reservado en octa Bench. Si el nuevo ejemplar habría ganado campañas históricas, sobrevive.
Entrenar
Los ejemplares sobrevivientes entran al siguiente preentrenamiento continuo y pase de RL de horizonte largo de octa.
Publicar
Se despliegan nuevos pesos de octa. Los seis algoritmos ahora corren con un componente más preciso. Empieza el siguiente loop.
Qué está haciendo octa² ahora mismo.
Activo en cada org cliente de graph8. Cada loop corre con su propia cadencia. La combinación es lo que compone.
Corriendo en producción hoy en cada org cliente de graph8.
Cadencia con la que se actualizan resultados de experimentos, rankings y decisiones de routing.
Cadencia con la que el análisis macro reajusta la infraestructura.
Trae tu motion. Mira girar la infraestructura.
Habla con nuestro equipo. Te mostraremos los seis algoritmos corriendo sobre una de tus campañas pasadas: qué variables se bloquearon, qué modelo ganó cada tarea, qué señal subió en ranking, qué política de secuencia se activó y qué habría publicado el siguiente loop.
octa² es la infraestructura técnica alrededor de octa, el modelo fundacional GTM. Las dos páginas van en par: esta cuenta la historia del proceso; la página de herencia cuenta la historia del modelo. El modelo se reentrena con cadencia de releases. La infraestructura compone cada hora.