octa²: la infraestructura alrededor del modelo

octa². La infraestructura alrededor de octa.

El modelo es un componente. La infraestructura es lo que compone. octa² combina seis algoritmos que corren en paralelo: experimentación online, ranking ensemble de señales, rotación multi-modelo, aprendizaje de política de secuencia, destilación de modelos y loop de análisis macro. Cada loop valida inputs para los demás. Los aprendizajes validados vuelven al corpus que reentrena octa. Los resultados mejoran en cada campaña, incluso entre releases del modelo.

Ver los seis algoritmos ->

Experimentación online

Ranking ensemble

Destilación de modelos

Análisis macro

Rotación multi-modelo

Política de secuencia

Modelo vs. proceso

El modelo se reentrena con cadencia de releases. El proceso se vuelve más preciso cada hora.

La mayoría de los pitches de "AI for sales" dicen vagamente que "el modelo sigue aprendiendo". No lo hace, no en tiempo real. Los pesos del modelo cambian cuando aterrizan runs de entrenamiento. Lo que cambia continuamente es la orquestación alrededor del modelo: qué variante se publica, qué señal se rankea, qué contacto se enruta, qué ejemplar se recupera y qué experimento se aprueba. Eso es octa². El modelo es un componente. El proceso es el moat.

Uno Componente de modelo (octa)

octa se reentrena con una cadencia de releases: preentrenamiento continuo más RL de horizonte largo sobre el corpus. Los pesos cambian semanal o mensualmente, no por campaña.

Seis Algoritmos corriendo en paralelo

Experimentación online, ranking ensemble de señales, rotación multi-modelo, aprendizaje de política de secuencia, destilación de modelos y loop de análisis macro. Cada uno corre su propio loop con su propia cadencia.

Cada Campaña genera datos

Cada envío, respuesta, reunión, clic en landing page y transición de etapa de deal. La infraestructura convierte el flujo crudo en aprendizajes validados por segmento.

De vuelta A los datos de entrenamiento

Los aprendizajes validados vuelven al siguiente preentrenamiento y fine-tune de octa. El proceso alimenta al modelo. El modelo alimenta al proceso. Compuesto.

El linaje

Los grandes sistemas compuestos nunca fueron un solo algoritmo.

Los sistemas que definieron búsqueda, investigación y juego no fueron modelos únicos ni algoritmos únicos. Fueron infraestructuras que combinaban muchos componentes, con resultados volviendo a los inputs. octa² sigue la misma forma, aplicada a GTM.

Búsqueda web moderna

Cientos de señales débiles, rankeadas continuamente

Ninguna señal decide sola. Un ensemble combina muchas, el ranking se reajusta con resultados de click-through y el índice se reevalúa de forma continua. La infraestructura de ranking, no una señal aislada, es el moat.

Agentes de juego con self-play

Búsqueda + self-play + un modelo aprendido

Tres algoritmos se alimentan entre sí: tree search propone movimientos, self-play genera nuevas posiciones de entrenamiento y la red aprende de los resultados. Quita cualquiera y el sistema colapsa. La combinación es la que aprende, no la red sola.

Plataformas de experimentación online

Tests controlados continuos, políticas actualizadas por resultados

Las variantes compiten por tráfico. Los resultados se miden. Los ganadores reciben más asignación por segmento. La plataforma es quien aprende; cualquier modelo dentro es solo una herramienta que usa para redactar variantes.

octa²

Seis algoritmos GTM corriendo alrededor del modelo octa

Experimentación online, ranking ensemble, rotación multi-modelo, aprendizaje de política de secuencia, destilación de modelos y loop de análisis macro. Cada loop valida inputs para los demás. Los aprendizajes validados vuelven al corpus que reentrena octa.

Los seis algoritmos

Seis loops corriendo en paralelo. Cada uno afina a los demás.

Ninguna de estas ideas es nueva por separado. La combinación es el punto. La experimentación online ajusta las variables. El ranking ensemble decide prioridad. La rotación multi-modelo elige el output. La política de secuencia decide el siguiente paso. La destilación baja el costo. El loop de análisis macro observa todo y ajusta. La infraestructura es el moat.

01 Experimentación online

Experimentos controlados por segmento. Bloqueos de variable. Loops de hipótesis.

graph8 ejecuta experimentos controlados continuos sobre cada variable de campaña que importa: asuntos, horarios de envío, profundidad de cadencia, mix de canales, layout de landing page y openers de voz. Cada experimento corre en una pista rápida, media o lenta según volumen. Cada resultado validado registra la variable, el segmento, el tamaño del efecto, la dirección, la confianza y el tamaño de muestra. Los ganadores se bloquean por segmento. La base de conocimiento se acumula. Los experimentos futuros se proponen contra aprendizajes previos, no desde cero.

02 Ranking ensemble de señales

Muchas señales débiles, una salida rankeada, los resultados reajustan las señales.

Cuentas para prospectar, contactos dentro de cuentas, señales de intent que vale la pena activar, variantes de secuencia que vale la pena enviar: cada una se puntúa combinando muchas señales débiles en un solo ranking. Ninguna señal decide sola. Los resultados, aperturas, clics, respuestas, reuniones y closed-won, vuelven y reajustan las contribuciones de cada señal. El ranking mejora continuamente sin requerir reentrenamiento del modelo.

03 Rotación multi-modelo

Generador. Crítico. Editor. Los roles rotan entre modelos por tarea.

Para cada output que importa, un email frío, un borrador de respuesta, una landing page o un guion de llamada, compiten varios modelos. Los roles rotan: el generador propone, el crítico ataca, el editor pule. Participan modelos open-source, modelos frontier, octa-mini, octa y octa-reasoning. La verificación determinista decide el ganador donde puede; el scoring estructurado decide donde no. El output ganador se publica. El log de competencia alimenta el entrenamiento.

04 Aprendizaje de política de secuencia

Cada toque es un estado. La siguiente acción es una política aprendida.

Una campaña es una secuencia de estados: contacto frío, email abierto, respuesta positiva, reunión agendada, calificado, cerrado. Desde cada estado hay muchas siguientes acciones posibles. octa² modela la política de estado a acción por segmento y la actualiza con resultados reales. El modelo elige la siguiente mejor acción; la orquestación aplica guardrails; el resultado realizado actualiza la política. La siguiente campaña empieza con una tabla de routing más precisa.

05 Destilación de modelos

El teacher frontier genera ejemplares. Los students open-source recuperan.

Los modelos frontier generan ejemplares canónicos para tareas GTM difíciles. Un pool de retrieval de nearest-neighbor sirve esos ejemplares en contexto a students open-source más baratos. La calidad se mantiene. El costo cae de forma material. La biblioteca de ejemplares crece con el tiempo, así que incluso con pesos estáticos en los students, el output mejora a medida que el pool se profundiza.

06 Loop de análisis macro

Reportes semanales y mensuales cierran el human-in-the-loop.

Un servicio de análisis macro genera reportes semanales y mensuales en toda la plataforma: capacidad, resultados de clientes, desempeño de algoritmos y cambios de segmento. Los humanos revisan, el sistema corrige curso, los algoritmos se reajustan y el corpus se reetiqueta. El loop macro vive por encima de todo lo demás y mantiene honesto al sistema completo. Los otros cinco loops corren cada hora. Este corre cada semana. Ambos son necesarios.

La composición

El output de cada algoritmo es el input de otro algoritmo.

Son seis loops, pero están conectados. Los aprendizajes validados de experimentación online se convierten en nuevas señales de ranking. Los outputs ganadores de la rotación multi-modelo se convierten en ejemplares teacher para la destilación. Los estados escasos o de baja confianza de la política de secuencia se convierten en hipótesis candidatas para el siguiente experimento. El loop de análisis macro reajusta qué algoritmo corre para cada tarea. La composición es estructural, no una metáfora.

Desde

Hacia

Qué fluye

Experimentación online

Ranking ensemble

Los bloqueos de variable validados se convierten en nuevas señales de ranking.

Ranking ensemble

Política de secuencia

Las cuentas y señales rankeadas moldean qué siguientes mejores acciones se prueban primero.

Rotación multi-modelo

Destilación de modelos

Los outputs ganadores se convierten en ejemplares teacher dentro del pool de retrieval.

Política de secuencia

Experimentación online

Los estados escasos o de baja confianza se convierten en hipótesis candidatas para el siguiente experimento.

Destilación de modelos

Rotación multi-modelo

Los students más baratos entran en la rotación y mueven la frontera costo-calidad.

Loop de análisis macro

Los cinco anteriores

Los reportes semanales reajustan qué algoritmo se llama para cada clase de tarea.

De vuelta al modelo

La infraestructura alimenta el siguiente run de entrenamiento.

El loop del día a día es la infraestructura. Pero la infraestructura no queda aislada del modelo. Aprendizajes validados, ejemplares ganadores, políticas de secuencia sobrevivientes y rankings reajustados vuelven al corpus que reentrena octa. Cada release del modelo se apoya en un set de entrenamiento más rico, más preciso y más segmentado que el anterior.

La cadencia de release del modelo es semanal a mensual. La cadencia de la infraestructura es horaria. Las dos cadencias se alimentan entre sí. Eso es octa².

El pipeline de feedback

Capturar. Etiquetar. Validar. Entrenar. Publicar.

Los cinco pasos que convierten las campañas de ayer en el modelo de la próxima semana.

Capturar

Cada resultado de campaña, cada variante ganadora, cada transición de estado a acción y cada ejemplar destilado entra al corpus.

Etiquetar

La infraestructura etiqueta la estructura, segmento, variable, canal e intent, sin humanos en el hot path. Los humanos revisan agregados.

Validar

Replay reservado en octa Bench. Si el nuevo ejemplar habría ganado campañas históricas, sobrevive.

Entrenar

Los ejemplares sobrevivientes entran al siguiente preentrenamiento continuo y pase de RL de horizonte largo de octa.

Publicar

Se despliegan nuevos pesos de octa. Los seis algoritmos ahora corren con un componente más preciso. Empieza el siguiente loop.

En producción

Qué está haciendo octa² ahora mismo.

Activo en cada org cliente de graph8. Cada loop corre con su propia cadencia. La combinación es lo que compone.

6 algoritmos

Corriendo en producción hoy en cada org cliente de graph8.

Cada hora

Cadencia con la que se actualizan resultados de experimentos, rankings y decisiones de routing.

Semanal

Cadencia con la que el análisis macro reajusta la infraestructura.

Ver octa² en acción

Trae tu motion. Mira girar la infraestructura.

Habla con nuestro equipo. Te mostraremos los seis algoritmos corriendo sobre una de tus campañas pasadas: qué variables se bloquearon, qué modelo ganó cada tarea, qué señal subió en ranking, qué política de secuencia se activó y qué habría publicado el siguiente loop.

Leer sobre el modelo ->

octa² es la infraestructura técnica alrededor de octa, el modelo fundacional GTM. Las dos páginas van en par: esta cuenta la historia del proceso; la página de herencia cuenta la historia del modelo. El modelo se reentrena con cadencia de releases. La infraestructura compone cada hora.