Cómo procesar 5 millones de formularios variables por minuto con un SLI del 99.99%

Implementación de un Sistema de Detección de Fraudes en Avito con Machine Learning

Introducción al Problema de Fraudes en Plataformas de Comercio Electrónico

En el ecosistema de las plataformas de comercio electrónico, como Avito, el fraude representa un desafío constante que afecta la confianza de los usuarios y la integridad operativa. Los fraudes pueden manifestarse en formas variadas, desde la creación de cuentas falsas para realizar transacciones ilícitas hasta la manipulación de listados de productos para estafar a compradores. Según datos internos de Avito, una plataforma líder en clasificados en Rusia, el volumen de intentos fraudulentos ha aumentado significativamente en los últimos años, impulsado por la expansión digital y la accesibilidad de herramientas automatizadas para los actores maliciosos.

La detección tradicional de fraudes, basada en reglas heurísticas y revisiones manuales, resulta ineficiente ante la escala de operaciones diarias. Avito procesa millones de interacciones por día, lo que requiere un enfoque más sofisticado. Aquí es donde entra en juego el machine learning (ML), una rama de la inteligencia artificial que permite analizar patrones complejos en datos masivos para identificar anomalías en tiempo real. Este artículo explora cómo Avito desarrolló e implementó un sistema de detección de fraudes basado en ML, destacando los componentes técnicos, desafíos y resultados obtenidos.

El sistema propuesto integra técnicas de aprendizaje supervisado y no supervisado, combinadas con procesamiento de datos en tiempo real, para clasificar comportamientos sospechosos con una precisión superior al 90%. Esta implementación no solo reduce las pérdidas financieras, estimadas en millones de rublos anuales, sino que también mejora la experiencia del usuario al minimizar interrupciones injustificadas.

Arquitectura General del Sistema

La arquitectura del sistema de detección de fraudes en Avito se basa en un pipeline modular que abarca desde la recolección de datos hasta la toma de decisiones automatizadas. El núcleo del sistema es una plataforma de ML construida sobre tecnologías open-source como Apache Kafka para el streaming de datos, TensorFlow para el modelado y Kubernetes para la orquestación de contenedores.

El flujo inicia con la ingesta de datos de múltiples fuentes: logs de usuario, metadatos de anuncios, historial de transacciones y señales de comportamiento en la app y web. Estos datos se normalizan y enriquecen en un data lake basado en Hadoop, donde se aplican transformaciones ETL (Extract, Transform, Load) para preparar conjuntos de entrenamiento limpios y escalables.

Ingesta de Datos: Se capturan eventos en tiempo real mediante Kafka topics, asegurando latencia inferior a 100 ms para eventos críticos como intentos de login o publicaciones de anuncios.
Preprocesamiento: Incluye tokenización de texto en descripciones de productos, normalización de IPs geográficas y codificación one-hot para variables categóricas como categorías de anuncios.
Entrenamiento de Modelos: Se utilizan clústeres de GPUs en la nube para entrenar modelos en lotes históricos, con validación cruzada para evitar sobreajuste.
Despliegue: Los modelos se sirven a través de una API RESTful con Flask, integrada en el backend de Avito para scoring en tiempo real.

Esta arquitectura permite escalabilidad horizontal, manejando picos de tráfico durante campañas promocionales sin degradación de rendimiento. Además, incorpora mecanismos de retroalimentación continua, donde las decisiones humanas (por ejemplo, revisiones de moderadores) se usan para reentrenar modelos periódicamente.

Técnicas de Machine Learning Empleadas

El sistema combina múltiples algoritmos de ML para cubrir diferentes tipos de fraudes, desde cuentas bot generadas hasta esquemas de lavado de dinero a través de transacciones ficticias. En el aprendizaje supervisado, se emplean modelos de clasificación como Random Forest y Gradient Boosting Machines (GBM), implementados con bibliotecas como XGBoost y Scikit-learn.

Para el entrenamiento, se genera un dataset etiquetado de más de 10 millones de muestras, donde el 5% corresponde a casos fraudulentos confirmados. Las features incluyen métricas de comportamiento como frecuencia de clics, tiempo de sesión, similitud semántica en textos de anuncios y patrones de red (por ejemplo, uso de VPNs). Un ejemplo de feature engineering es el cálculo de un score de “velocidad de publicación”, que mide anuncios por hora por cuenta, flagging valores atípicos mediante percentiles.

En el aprendizaje no supervisado, se aplican algoritmos de clustering como K-Means y detección de anomalías con Isolation Forest. Estos son cruciales para identificar fraudes novedosos no vistos en el entrenamiento, como campañas de phishing emergentes. Por instancia, el clustering agrupa usuarios por patrones de interacción, aislando grupos con alta entropía en sus acciones (indicando posible automatización).

Adicionalmente, se integra deep learning para tareas específicas, como el análisis de imágenes en anuncios. Usando Convolutional Neural Networks (CNN) preentrenadas en ResNet-50, el sistema detecta manipulaciones como fotos robadas de stock o ediciones para ocultar defectos. El modelo se fine-tunea con un dataset curado de 500.000 imágenes, alcanzando una precisión del 85% en la clasificación de autenticidad.

Random Forest: Ideal para interpretabilidad, con feature importance que revela que el 40% de las decisiones se basan en patrones de IP y dispositivo.
XGBoost: Ofrece el mejor balance precisión-velocidad, con AUC-ROC de 0.95 en validación.
Isolation Forest: Detecta el 70% de anomalías no etiquetadas, reduciendo falsos negativos en un 25%.

La ensemble de estos modelos mediante voting weighted mejora la robustez, donde cada predictor contribuye según su confianza score. Esto mitiga sesgos inherentes, como el sobreajuste a fraudes regionales en Rusia.

Desafíos en la Implementación y Soluciones

Uno de los principales desafíos fue el manejo de datos desbalanceados, donde las clases fraudulentas representan menos del 1% del total. Para abordar esto, se aplicaron técnicas de oversampling como SMOTE (Synthetic Minority Over-sampling Technique), generando muestras sintéticas en el espacio de features para equilibrar el dataset sin introducir ruido excesivo.

La privacidad de datos, regulada por la GDPR y leyes rusas equivalentes, impuso restricciones en el uso de información personal. La solución involucró federated learning parcial, donde modelos se entrenan en silos de datos anonimizados, y differential privacy para agregar ruido gaussiano en las actualizaciones de gradientes, protegiendo identidades individuales sin comprometer la utilidad del modelo.

En términos de rendimiento, el scoring en tiempo real demandaba optimizaciones. Se implementó model quantization con TensorFlow Lite, reduciendo el tamaño del modelo en un 75% y acelerando inferencia en un 40%, compatible con edge computing en dispositivos móviles de Avito.

Otro reto fue la evasión adversarial: atacantes que modifican comportamientos para burlar el sistema. Para contrarrestar, se incorporó un módulo de adversarial training, exponiendo modelos a ejemplos perturbados generados por Fast Gradient Sign Method (FGSM), mejorando la resiliencia en un 30% contra ataques conocidos.

La integración con sistemas legacy de Avito requirió un enfoque híbrido: reglas basadas en ML se combinan con thresholds heurísticos para casos edge, asegurando una transición suave sin downtime. Monitoreo con Prometheus y Grafana permite alertas proactivas ante drifts en el rendimiento del modelo, como caídas en precisión por cambios estacionales en patrones de fraude.

Resultados y Métricas de Evaluación

Tras el despliegue en producción en 2023, el sistema redujo los fraudes detectados en un 65%, procesando 50 millones de eventos diarios con una latencia media de 50 ms. Métricas clave incluyen:

Precisión: 92%, minimizando falsos positivos que podrían frustrar usuarios legítimos.
Recall: 88%, capturando la mayoría de intentos fraudulentos y previniendo pérdidas estimadas en 200 millones de rublos anuales.
F1-Score: 0.90, balanceando precisión y recall en datasets desbalanceados.
ROI: Retorno de inversión positivo en 6 meses, gracias a la automatización que liberó al 40% del equipo de moderación para tareas de valor agregado.

Análisis post-implementación reveló que el 55% de fraudes bloqueados involucraban bots de scraping para crear listados masivos, mientras que el 30% eran esquemas de reventa falsa. Comparado con el sistema anterior basado en reglas, el ML mejoró la detección de fraudes zero-day en un 50%, demostrando adaptabilidad a amenazas emergentes como deepfakes en videos de productos.

Estudios de caso internos destacan incidentes resueltos, como la identificación de una red de 500 cuentas falsas operando desde data centers en Europa del Este, bloqueadas en menos de 24 horas mediante clustering de similitudes en fingerprints de navegador.

Escalabilidad y Futuras Mejoras

Para escalar el sistema, Avito planea migrar a arquitecturas serverless con AWS Lambda, reduciendo costos operativos en un 20% durante periodos de bajo tráfico. La integración de reinforcement learning podría optimizar decisiones dinámicas, como ajustar thresholds de riesgo basados en feedback en tiempo real de transacciones completadas.

En el horizonte, la incorporación de blockchain para verificar autenticidad de transacciones podría complementar el ML, creando un ecosistema híbrido resistente a manipulaciones. Además, colaboraciones con proveedores de datos externos, como bases de IPs blacklists, enriquecerán features para una detección más global.

La monitorización continua de bias en modelos, mediante métricas como disparate impact, asegura equidad en la aplicación, evitando discriminación por regiones o demografías en Rusia y países vecinos.

Conclusión Final

La implementación de este sistema de detección de fraudes basado en machine learning en Avito ilustra el poder transformador de la IA en la ciberseguridad de plataformas digitales. Al combinar técnicas avanzadas de ML con una arquitectura robusta, se logra no solo una defensa proactiva contra amenazas, sino también una operación más eficiente y confiable. Los resultados obtenidos validan este enfoque, pavimentando el camino para innovaciones futuras que fortalezcan la resiliencia en entornos de alto volumen. Este modelo puede servir de referencia para otras plataformas de comercio electrónico enfrentando desafíos similares, promoviendo un ecosistema digital más seguro.

Para más información visita la Fuente original.

-

!Suscríbete --> Aquí!

Cómo procesar 5 millones de formularios variables por minuto con un SLI del 99.99%

Implementación de un Sistema de Detección de Fraudes en Avito con Machine Learning

Introducción al Problema de Fraudes en Plataformas de Comercio Electrónico

Arquitectura General del Sistema

Técnicas de Machine Learning Empleadas

Desafíos en la Implementación y Soluciones

Resultados y Métricas de Evaluación

Escalabilidad y Futuras Mejoras

Conclusión Final

Comentarios

Deja una respuesta Cancelar la respuesta