Numerai
Lex Fridman es un investigador del MIT que tiene un podcast magnífico sobre Inteligencia Artificial. En uno de los últimos episodios invitó a Richard Craib a hablar, y hablaron sobre r/WallStreetBets y el pifostio que se montó porque desde ese subreddit se pusieron a comprar acciones de GameStop para putear a los fondos que se habían puesto cortos en acciones de GameStop.
No solo hablaron de eso. Richard Craib es uno de los fundadores de Numerai, un Hedge Fund que opera en base al conocimiento de la gente que envía sus predicciones del precio de ciertas acciones.
Estas predicciones se generan mediante algoritmos de Machine Learning (ML) y Deep Learning (DL), usando como datos de entrada un dataset que la propia Numerai publica de manera 100 % abierta.
Bueno, casi abierta.
Lo que hacen en realidad es ofuscar los datos para que los participantes solo vean números y nombres de columnas inventados. Los participantes no saben qué acciones están prediciendo.
Después, los participantes alimentan sus modelos con estos datos, y generan previsiones que publican como si de una competición de Kaggle se tratase.
Skin in the game
Para poder publicar tus predicciones, tienes que adquirir participaciones (stake) en forma de la crypto de la propia Numerai: Numeraire (NMR). Una vez la tienes, te la apuestas y publicas tus predicciones:
Si tus predicciones son buenas y las usan en Numerai, te dan cierto retorno sobre tu apuesta.
Si tus predicciones son malas destruyen tus monedas (vamos, que no ganan si eres malo)
No hay muchos datos sobre el performance de este fondo, pero por el volumen que se mueve de NMR parece que hay mucha gente implicada.
Wisdom of the crowd
Vamos, que Numerai se dedica a coger muchas predicciones de mucha gente diferente, y en base a cierta agregación de estas predicciones montan su estrategia.
Nada nuevo.
Están eliminando el sesgo individual de cada predicción al agregarlas, y así te aseguras que las debilidades se diluyen —hasta cierto punto.
Esta misma metodología es la que se usa en los algoritmos basados en Bagging como los RandomForest.
Estos algoritmos consisten en N estimadores individuales (árboles de decisión generalmente), donde cada uno es entrenado con una muestra de la totalidad de los datos. Luego, las predicciones de cada árbol se promedian y ésa es la predicción final.
Al hacer esto, nos aseguramos de que:
Los sesgos individuales quedan diluídos
La generalización es mayor -necesitamos predictores que generalicen bien cuando vean datos desconocidos para ellos
Lecciones
La media de las opiniones suele ser mejor estimador de la realidad que cada opinión individual.
El éxito está en usar diferentes fuentes de entrada y eliminar sesgos.
Incluso con la mejor selección de opiniones hay un sesgo irreducible que nos aleja de la perfección.