Acabo de leer el siguiente artículo: "The seven secrets of successful data scientists", de Dataspora (blog muy recomendable por cierto), definitivamente no podría estar más de acuerdo. Resume muy bien algunos de los problemas que he descubierto "a batacazos" durante los dos años en los que he estado trabajando con Big data.
Veamos los puntos:
Choose The Right-Sized Tool (Usa la herramienta que toque): Muy importante. Hadoop está muy bien, pero sólo tiene sentido si realmente tienes gigabytes de datos. Si tienes pocos datos usa macros de vim, si tienes unos pocos más con las herramientas estándar de Unix y algún lenguaje de scripting bastará.
Compress Everything (Comprímelo todo): Tengo un post pendiente que habla de esto desde hace mucho tiempo. Cuando se trabaja con datos normalmente la CPU no es el problema. La mayoría de veces es el disco (ya que se usa mucho para sustituir la falta de memoria), la solución es comprimir.
Split Up Your Data (Parte los datos): Divide y vencerás, pues eso, de hecho se llama "sharding", pero cuidadín al elegir cómo partes los datos.
Sample Your Data (Samplea, estadísticamente hablando, claro): Un paso importante del desarrollo del software es la parte de testing. Lógicamente muchas veces no se puede disponer de todo el conjunto de datos de entrada, la solución será poder coger un subconjunto estadísticamente representativo de la entrada para probar el programa.
Smart Borrows, But Genius Uses Open Source (usa código abierto): Nada a decir aquí, antes de redescubrir la rueda pásate por github o google code a dar un vistazo.
Keep Your Head in the Cloud (Mantén tu cabeza en la nuve, o trabaja en local, dónde quiera que sea "local"): Fallo muy clásico, estamos hablando de muchos datos. Cuando debas manipularlos quieres hacerlo localmente, no quieres mover Terabytes de datos de una máquina a la otra porque la otra tiene un poco más de memoria.
Don’t Be Clever (No te pases de listo): No se hasta qué punto estoy de acuerdo con este punto, supongo que muy personal, aunque me gusta la última conclusión: mantén el diseño simple.
No hay comentarios:
Publicar un comentario en la entrada
Comenta: