Estudié Python y desarrollé un programa para pacientes: cómo la medicina me impulsó hacia el sector de la TI

Estudié Python y desarrollé un programa para pacientes: cómo la medicina me impulsó hacia el sector de la TI

Cómo combatimos el fraude en Avito: Modelos de aprendizaje automático para la detección de phishing

Introducción al problema del phishing en plataformas de clasificados

En el ecosistema digital actual, las plataformas de clasificados en línea como Avito enfrentan desafíos constantes relacionados con la ciberseguridad. El phishing, una técnica de ingeniería social que busca obtener información sensible mediante el engaño, representa una amenaza significativa. Los atacantes crean anuncios falsos o enlaces maliciosos que imitan ofertas legítimas, dirigiendo a los usuarios hacia sitios web fraudulentos donde se roban credenciales o datos financieros. En Avito, una de las mayores plataformas de este tipo en Rusia, el volumen de transacciones diarias amplifica el riesgo, ya que millones de usuarios interactúan diariamente con publicaciones que podrían ocultar intenciones maliciosas.

La detección temprana de estos intentos es crucial para mantener la confianza de los usuarios y la integridad de la plataforma. Tradicionalmente, los métodos basados en reglas heurísticas han sido empleados, pero su efectividad disminuye ante la evolución constante de las tácticas de los phishing. Aquí es donde entra el aprendizaje automático (ML, por sus siglas en inglés), que permite analizar patrones complejos en datos masivos y adaptarse dinámicamente a nuevas amenazas. En este artículo, exploramos cómo Avito implementa modelos de ML para identificar y mitigar el phishing, detallando el proceso desde la recolección de datos hasta el despliegue en producción.

El phishing en clasificados se manifiesta de diversas formas: anuncios con enlaces a dominios falsos que prometen descuentos irresistibles, mensajes directos con URLs acortadas que ocultan malware, o incluso perfiles de vendedores que solicitan pagos por adelantado a cuentas no verificadas. Según estadísticas internas de Avito, estos incidentes pueden representar hasta el 5% de las interacciones diarias si no se intervienen a tiempo. La adopción de ML no solo reduce falsos positivos, sino que también escala la protección sin requerir intervención manual constante.

Recolección y preparación de datos para el entrenamiento de modelos

El primer paso en la construcción de un sistema de detección de phishing basado en ML es la adquisición de datos de calidad. En Avito, se recopilan datos de múltiples fuentes: logs de interacciones de usuarios, metadatos de anuncios (títulos, descripciones, imágenes), historiales de clics en enlaces y reportes de usuarios sobre actividades sospechosas. Estos datos se anonimizan para cumplir con regulaciones de privacidad como la GDPR equivalente en Rusia, asegurando que solo se utilicen atributos no sensibles como la longitud del texto, la frecuencia de palabras clave o patrones de URL.

La preparación de datos implica un proceso de limpieza exhaustivo. Se eliminan duplicados, se normalizan textos (por ejemplo, convirtiendo a minúsculas y eliminando acentos innecesarios), y se extraen características relevantes. Para el phishing, características clave incluyen: la presencia de dominios similares a sitios legítimos (como avito.ru vs. avito-fake.com), el uso de emojis excesivos en títulos para atraer atención, o la discrepancia entre la ubicación geográfica del vendedor y el anuncio. Se emplean técnicas de procesamiento de lenguaje natural (NLP) como tokenización y vectorización TF-IDF para convertir textos en vectores numéricos que los modelos puedan procesar.

Además, se genera un conjunto de datos etiquetados mediante un enfoque semi-supervisado. Inicialmente, expertos en ciberseguridad etiquetan una muestra manualmente, clasificando anuncios como “legítimos”, “sospechosos” o “phishing confirmado”. Luego, se utiliza aprendizaje activo para iterar: el modelo propone muestras ambiguas para etiquetado humano, optimizando el uso de recursos. En Avito, este dataset crece diariamente, alcanzando volúmenes de millones de registros, lo que permite entrenar modelos robustos contra variaciones regionales del phishing, como campañas localizadas en ciudades específicas.

Para manejar desequilibrios en las clases —ya que el phishing es minoritario—, se aplican técnicas como sobremuestreo (SMOTE) o pesos de clase en el algoritmo de entrenamiento. Esto asegura que el modelo no se sesgue hacia la mayoría de anuncios benignos, manteniendo una alta sensibilidad para detectar amenazas raras pero críticas.

Selección y desarrollo de algoritmos de aprendizaje automático

Una vez preparados los datos, se evalúan varios algoritmos de ML para la detección de phishing. En Avito, se priorizan modelos interpretables y eficientes para entornos de alto tráfico. Los enfoques supervisados dominan, comenzando con clasificadores clásicos como Regresión Logística y Árboles de Decisión, que ofrecen una baseline sólida. Estos modelos analizan características lineales, como la similitud de URL con dominios conocidos, con una precisión inicial alrededor del 85% en conjuntos de validación.

Sin embargo, para capturar interacciones no lineales, se avanza a métodos ensemble como Random Forest y Gradient Boosting Machines (GBM), implementados con bibliotecas como XGBoost. Estos algoritmos construyen múltiples árboles de decisión y los combinan, mejorando la robustez contra overfitting. En pruebas internas, un modelo GBM alcanza un F1-score de 0.92 para la clase phishing, superando a los métodos heurísticos en un 20%. La importancia de características se visualiza mediante gráficos de SHAP (SHapley Additive exPlanations), revelando que factores como la edad del dominio y la presencia de palabras como “urgente” o “confidencial” son predictores clave.

Para tareas más complejas, como el análisis de imágenes en anuncios, se integran modelos de deep learning. Redes neuronales convolucionales (CNN) como ResNet procesan fotos de productos, detectando manipulaciones como superposiciones de texto falso o fondos inconsistentes. En combinación con NLP para descripciones, un modelo híbrido multimodal logra detectar phishing visual, común en estafas de bienes de lujo. El entrenamiento se realiza en clústeres GPU, utilizando frameworks como TensorFlow, con optimización de hiperparámetros vía búsqueda bayesiana para minimizar el tiempo de cómputo.

La detección en tiempo real requiere modelos livianos. Se emplea destilación de conocimiento, donde un modelo grande (teacher) entrena uno pequeño (student) para inferencia rápida. Esto reduce la latencia de milisegundos, esencial para escanear enlaces antes de que el usuario haga clic. Además, se incorpora aprendizaje por refuerzo para adaptar el modelo a retroalimentación de usuarios, premiando detecciones correctas y penalizando falsos positivos que podrían frustrar a vendedores legítimos.

Integración del sistema de ML en la infraestructura de Avito

Desplegar modelos de ML en una plataforma como Avito implica una arquitectura escalable y segura. Se utiliza un pipeline de MLOps con herramientas como Kubeflow para automatizar el entrenamiento, validación y despliegue. Los modelos se sirven mediante APIs RESTful en contenedores Docker, orquestados por Kubernetes, permitiendo autoescalado durante picos de tráfico, como fines de semana cuando las publicaciones aumentan.

La integración se realiza en capas: una capa de preprocesamiento en tiempo real filtra anuncios entrantes, extrayendo características con Apache Kafka para streaming de datos. El modelo principal procesa estas características y genera puntuaciones de riesgo (de 0 a 1), donde umbrales por encima de 0.7 activan alertas. Para enlaces externos, se integra con servicios como VirusTotal para verificación adicional, combinando ML con inteligencia externa.

La seguridad del sistema es paramount. Los modelos se protegen contra ataques adversarios, como envenenamiento de datos, mediante validación cruzada y monitoreo continuo de drift (cambios en la distribución de datos). En Avito, un dashboard interno rastrea métricas como precisión, recall y tasa de falsos positivos, con alertas automáticas si el rendimiento cae por debajo del 90%. Actualizaciones semanales incorporan nuevos datos de phishing emergente, como variantes impulsadas por IA generativa que crean textos más convincentes.

En términos de experiencia del usuario, las detecciones se manejan discretamente: anuncios sospechosos se marcan para revisión manual o se bloquean automáticamente, mientras que usuarios reciben notificaciones educativas sobre riesgos. Esto no solo mitiga daños, sino que fomenta comportamientos seguros, reduciendo incidentes en un 30% según métricas post-implementación.

Evaluación de rendimiento y desafíos éticos

La evaluación de los modelos se basa en métricas estándar adaptadas al contexto de ciberseguridad. Además del F1-score, se mide el área bajo la curva ROC (AUC-ROC) para equilibrar sensibilidad y especificidad, y se simulan escenarios de ataque con datasets sintéticos generados por GANs (Generative Adversarial Networks) para probar robustez. En Avito, pruebas A/B comparan el sistema ML contra baselines, mostrando una reducción del 40% en phishing exitoso.

Desafíos éticos surgen en la aplicación de ML. El sesgo en datos de entrenamiento podría discriminar regiones o idiomas minoritarios, por lo que se auditan datasets para diversidad y se aplican técnicas de fairML. La privacidad se asegura con federated learning en casos donde datos sensibles no salen de servidores locales. Además, la transparencia es clave: informes explican decisiones de bloqueo a administradores, usando LIME (Local Interpretable Model-agnostic Explanations) para desglosar predicciones.

Otro reto es la evolución del phishing. Atacantes usan obfuscación, como codificación base64 en URLs, requiriendo modelos que decodifiquen y analicen dinámicamente. Avito contrarresta esto con actualizaciones continuas y colaboración con la industria, compartiendo hashes de phishing en redes como MISP (Malware Information Sharing Platform).

Impacto en la ciberseguridad y perspectivas futuras

La implementación de estos modelos ha transformado la ciberseguridad en Avito, pasando de una defensa reactiva a proactiva. Se estima que se bloquean miles de intentos de phishing diariamente, protegiendo a usuarios de pérdidas financieras y robos de identidad. Este enfoque no solo beneficia a Avito, sino que sirve de modelo para otras plataformas de e-commerce, destacando el rol de ML en la mitigación de amenazas digitales.

Mirando al futuro, la integración de IA generativa promete avances. Modelos como GPT variantes podrían generar descripciones de anuncios para detectar anomalías semánticas, mientras que blockchain podría verificar autenticidad de vendedores mediante tokens no fungibles. Sin embargo, estos avances exigen equilibrio con costos computacionales y regulaciones emergentes sobre IA ética.

En resumen, la lucha contra el phishing en Avito demuestra cómo el ML, aplicado con rigor técnico, fortalece la resiliencia digital. La evolución continua de estos sistemas asegurará que las plataformas permanezcan un paso adelante de los adversarios.

Para más información visita la Fuente original.

Comentarios

Aún no hay comentarios. ¿Por qué no comienzas el debate?

Deja una respuesta