Distribuïnt...

Taming our distributed systems

noreply@blogger.com (Anonymous) — Mon, 21 Jul 2014 10:18:00 +0000

I've just written a blog post about how we are using resilience when running distributed systems in our team at +Trovit.
It's about some of the nice design patterns explained in my previous blog post, taken into production. Have a look if you are interested :)

http://tech.trovit.com/index.php/taming-our-distributed-systems/

Hystrix, some thoughts.

noreply@blogger.com (Anonymous) — Thu, 05 Dec 2013 14:31:00 +0000

Yep, long time no see!

You know Hystrix? if you are building distributed systems (in the JVM) you should probably use it. If you want to sleep at night that is.

First a gentle introduction. Hystrix a is a library open-sourced by Netflix that helps you deal (and live) with failures in distributed systems. You can find some docs [here], the blog post announcing it [here] and the code in [github], oh, and they even have a [twitter account].

So Hystrix lets your system fail in a controlled way instead of going down in a free fall. It does this by letting the user create fallbacks and using the circuit breaker pattern.

Lets do a small pause here, if you don't know what the circuit breaker pattern is you should go and grab this:

Release It!

(I have no commission unfortunately)

I got this book by chance and it was a real life saver. It basically describes real world errors and how they escalated from a database lock to a full disaster and how they can be detected and prevented. More or less. Basically it taught me that failure needs to be a first citizen when you design a system. Failure will happen. Period.

Getting back to Hystrix...

Hystrix is basically and implementation of the patterns described in the book, and in fact, I really think that the github page should have a message telling the user to read the book, and once that's done get back to Hystrix. Everything makes (much more) sense afterwards.

I've been playing a little bit with it, with toy method basically and well, it works really nicely (as expected, coming from Netflix). It might seem to be a little cumbersome, you really need to write lots of code, but I don't know of any better alternative, or worse in fact. Other than filling your code with try ... catch ... finally and your own fallback methods.

Overall, the library will let you have fallbacks/circuitbreakers in places where failures are expected to happen, like connections to db's, connection to 3rd party API's, network stuff and threads. All you have to do is wrap these potentially disastrous invocations in HystrixCommand classes and define their workflow, the rest is done by the library.

The patters implemented in Hystrix and described in the book are applicable anywhere, specially if you are working on a Service Oriented Architecture (remember kids, nothing to do with that crappy SOAP technology) or API's.

All in all a really nice framework, could be simpler, or less verbose.

Summary: If you are implementing backend systems that need to run no matter what on the JVM use Hystrix.

Open Data, qué estamos haciendo mal?

noreply@blogger.com (Anonymous) — Mon, 23 Apr 2012 11:10:00 +0000

La semana pasada tuve el placer de ser invitado por Jordi Torres (@JordiTorresBCN) a dar una charla sobre Big Data en los seminarios de EEDC en lo que fue mi universidad, la UPC.

Además de la alegría de volver a la universidad y reencontrarme con colegas del BSC tuve la suerte de poder compartir espacio de charla con los chicos de The Data Republic (@thedatarepublic), David Sánchez (@dasago78) y Genís Barrera (@genisbarrera)

Mi charla fue sobre la experiencia de trabajar en un entorno de Big Data, pero no es de esto de lo que quiero hablar hoy, voy a hablar de la charla que hicieron The Data Republic, se tituló: Open Data

Hace tiempo que no hablo mucho del tema, y la razón es que aunque inicialmente el movimiento Open Data me entusiasmó, debido básicamente a los experimentos del Datablog de The Guardian y de la lectura del libro Open Government de O'reilly el tema ha ido decayendo.

En su charla de Open Data contaron lo difícil que es transformar los datos abiertos de España en productos con valor, que al fin y al cabo es (o tendría que ser) la finalidad del open data, poder dar transparencia a lo que está haciendo el gobierno y sacar provecho de esto.

Este artículo no es una pataleta, que quede claro, pero voy a intentar hacer una lista objectiva de las cosas que están fallando en el Open Data español. Y voy a hacer esto sabiendo que no soy el único que lo pienso, ya que en la charla vi que todo el mundo comparte las mismas preocupaciones:

Datos en pdf? venga ya. Queremos API's. No vale en poner un pdf colgado, ni un link a otra página con un layout totalmente distinto de otra organización para que luego haya que "scrapearla" (si puedes claro). Y un excel? además todos distintos? na na, no vamos bien.
No cualquier dato. Muchos de los datos que se han abierto (no todos) son viejos, o no son lo que quisiéramos o no se actualizan. Los programadores y defensores del Open Data debemos jugar nuestro papel en esto, esto se traduce en hacer aplicaciones que sean útiles. Verdad? pues bien, el problema es que yo personalmente (y mucha otra gente) no vemos como hacer una aplicación útil (y rentable ya ni te digo) con los datos que está publicados (o su frecuencia de actualización). Lógicamente si los programadores no hacemos aplicaciones para el gran público esto significa que nadie utiliza los datos abiertos y al fin del año, cuando desde el gobierno pidan los resultados de las apertura de datos los encargados que han estado sudando para hacerlo tendrán que decir: pues no los usa nadie, y lógicamente esto no ayudará la apertura de datos nuevos.

No obstante, cabe decir que se han hecho grandes cosas dentro del mundillo Open Data español, sólo hace falte echarle una ojeada a la calidad de los proyectos presentados en Abredatos, podéis encontrar una lista aquí.

Entra en escena: Smart Cities!

No termino aquí, vamos a continuar el post ligando todo este tema (que me preocupa mucho) con las smart cities...

Probablemente habrán ustedes oído a hablar de las smart cities no? este concepto de ciudad inteligente, totalmente informatizada que es capaz de reaccionar, digámoslo así. Pues visto lo visto no tengo mucha confianza en que el gobierno/ayuntamientos sean los mejores para hacerlo. No se me entienda mal, no estoy diciendo que no tengan capacidad tecnológica (que la tienen), sino que veo un sinfín de problemas burocráticos para usar o abrir estos datos. Así que últimamente he estado pensando que la única manera de que el tema de smart cities tenga una salida decente es hacerlo bottom-up, desde los ciudadanos y para los ciudadanos.

Algo así como una gran API sobre un sistema de almacenamiento como los que facilita Amazon en que todos los usuarios (ciudadanos) puedan participar, ya sea leyendo de esta API (mediante aplicaciones) y escribiendo encima de ella. Algo así como Pachube + Open Data que de el gobierno/ayuntamiento + Public Data (según los chicos de The Data Republic datos al alcance de la gente (Twitter/Flickr/Foursquare/...)

Y no me digáis loco porque ya hay proyectos así empezando via @algonpaje. Será que la gente empieza a hartarse de los proyectos de "hacerse la foto con el ministro" ?

Sinceramente creo que esta es la única solución práctica y que pueda ser rentable para que todo esto tenga éxito.

Lógicamente, es sólo mi opinión.

Erlang

noreply@blogger.com (Anonymous) — Fri, 03 Feb 2012 14:58:00 +0000

Hoy voy a escribir sobre lo que me ha mantenido ocupado en mis pocos ratos libres estos últimos meses, Erlang!

Hace tiempo que quería aprender algo nuevo, lógicamente que me fuera útil y que estuviera relacionado con los sistemas distribuidos y la escalabilidad, faltaría más. Así que me puse a buscar y di con 3 buenas opciones:

node.js
scala
erlang

Me gustó mucho node.js, pero debo admitir que el hecho de que sea javascript me hechó un poco para atrás (aclaración: no tengo NADA en contra de javascript, pero no es exactamente lo que estaba buscando). Así que estaba entre scala i erlang.

Erlang vs Scala

Por un lado tenemos un lenguaje de programación que corre en la máquina virtual de Java, actual, con toques funcionales y bastante hype, aunque no falto de críticas. Por el otro lado un lenguaje mucho más "underground", totalmente funcional y bastante más viejo. Los dos se adaptan bien a lo que quería, y además, los dos tienen un modelo de concurrencia basado en "actores".

Debo admitir que ya iba un poco predeterminado a escoger Erlang, aunque por temas de trabajo también me interesaba aprender un poco de Scala. Finalmente, tras unas pequeñas investigaciones y una pequeña incursión en Scala llegué a la conclusión de que el lenguaje es (para mi gusto) excesivamente complicado, no para aprender, sino ya para utilizar efectivamente, lo que en inglés llaman "overenginered". Lógicamente es una opinión personal.

Así que nada, eché una ojeada a Erlang (http://www.learnyousomeerlang.com) y finalmente me decidí a comprar el libro de o'reilly.

Erlang
Erlang es un lenguaje puramente funcional, con una sintaxis un poco barroca, que corre sobre una máquina virtual. Fue creado hace bastante tiempo (en términos informáticos) en Ericsson y fue abierto al público en 1998. No quiero ni describir el lenguaje ni hacer un mini tutorial, para esto tenéis la página que he puesto antes y la descripción en wikipedia.

Y qué pinta Erlang hoy en día ? pues básicamente su modelo de concurrencia, como he dicho antes, basado en actores, o lo que es lo mismo, un modelo de concurrencia sin variables compartidas, mediante envío de mensajes, asíncrono.

Pero hay alguien que utilice Erlang?
Pues si señores, seguro que os suenan estos proyectos (entre muchos otros):

couchdb: Base de datos Nosql.
riak: idem
mochiweb: Servidor HTTP asíncrono.

Temas que hacen que erlang sea la caña:
Como ya he dicho no quiero entrar en detalle del funcionamiento de Erlang, ni de la sintaxis ni de las características del lenguaje, pero hay unos temas que me creo hay que destacar:

Asíncrono con envío de mensajes: Las comunicaciones entre procesos se hacen a base de enviar mensajes. Los procesos van realizando sus tareas y de vez en cuando miran su "mailbox", si hay algun mensaje, se lee y se hace lo que se tiene que hacer y se contesta.
Hot code swapping: Uno de las características más espectaculares. Podemos hacer un update de código sin tener que reiniciarlo. No es eso el sueño de todo programador de backend?
Programación distribuida integrada: Igual que las comunicaciones entre procesos, pero en procesos en máquinas distintas, todo integrado en el 'core' del lenguaje, sin ningún tipo de librería externa.
Película: si señores, Erlang tiene una película.

Además, hay algunos links dignos de mención:

Del tutorial a producción

El hecho de que sea un lenguaje muy distinto de los que estoy acostumbrado a trabajar hace que sea un poco difícil de dominar, ya se sabe, para aprender hay que poner horas y experiencia, en términos informáticos: poner en producción. Intenté convencer a unos compañeros de un proyecto para utilizar Erlang, su respuesta fue que como vieran una sola linea de Erlang en el sistema me iban a colgar de lo más alto de un edificio muy conocido, así que de momento me estoy reservando a algún proyecto personal que ya tengo pensado y muy pronto (crucemos los dedos) empezaré.

Es "Big Data" una buzzword?

noreply@blogger.com (Anonymous) — Thu, 15 Dec 2011 11:21:00 +0000

Hace muy poco un amigo mío hizo un tweet:
"Es Big Data la siguiente Buzzword"?

Si además ponemos a la mezcla los posts en algunos posts bastante "mainstream" de algunos gurús de la informática pues ya tenemos una combinación un poco explosiva.

Mi opinión es que probablemente los comerciales, "gurús" y otros consigan que Big Data sea una buzzword como lo ha sido cloud computing, IA, o grid computing. Y creo que es una lástima, para mi estas tecnologías tienen un sentido y una utilidad.

En general me hace gracia que las tecnologías con las que trabajo sean conocidas, me sale la vena hipster y puedo decir eso de: Yo trabajaba con Hadoop antes de que... pero llega un momento que el tema se hace cansado. Y lo digo porque de seguro ahora mucha gente va a coger sus productos de siempre y les va a meter "Big Data" para que sean más vendibles, van a empezar a salir "entendidos" y vamos a ver qué más. Hasta que salga la siguiente Buzzword, y a por otra cosa.

Para mi big data no es una tendencia, es un problema que existe. El cloud, el grid, la IA son metodologías, una mezcla de tecnologías, que han tenido más o menos éxito, que han sido tendencia y que han servido para sacar dinero de subvenciones para proyectos. Uno de los problemas que ha habido (en mi humilde opinión) es que se han intentado encontrar soluciones a problemas que no existían, creándose así un sinfín de tecnologías poco prácticas, flojas y muy poco realistas. Este pues, no es el caso, aquí primero estuvo el problema, luego la solución.

Big data no es una tendencia, es un problema. Punto y final.

Visualizaciones de Big Data

noreply@blogger.com (Anonymous) — Tue, 06 Sep 2011 11:25:00 +0000

Voy a hablar, más o menos, de un tema muy importante, pero que no domino mucho. Más bien, no domino ni de broma, pero debería. Me refiero a las visualizaciones.

Me paso el día hablando a gente de que Hadoop es la caña, que si terabytes de datos, que si Cassandra por aquí que si HBase por allá, pero siempre hay que "visualizar" los datos no?, si nos curramos todo esto, al menos que se pueda mostrar el trabajo.

La visualización es todo un mundo, hay que tocar un poco de matemáticas, un poco de estadística, informática y sobretodo arte.

Voy a intentar hablar un poco más sobre visualizaciones en este blog, pero hoy vengo preparado con un gran ejemplo.

Uno de mis ex-colegas en last.fm Martin Dittus (blog, last.fm, twitter) se ha currado una visualización de todos los scrobbles de todos los trabajadores (y ex-trabajadores de last.fm). En mi caso estamos hablando de la visualización de 129.000 canciones en 7 años.

Sobre este gran trabajo han aparecido comentarios en algunos lugares de la web, por ejemplo:

Vamos a ver la visualización de mi historia musical:

http://last.fm/user/grindthemall

Vamos a analizarla un poco, en el eje de las X podemos ver los años, empezé a usar last.fm en el 2005, cuando un compañero de Gridcat me lo enseñó. Bueno, durante los primeros meses y hasta el Julio del 2006 podemos ver una historia de scrobbles un poco difusa y repartida por las 24 horas del día, básicamente demostrando que tenía unos horarios un tanto animales durante mis años universitarios.

De repente los scrobbles se agrupan en 8/9 horas, si señores, empezé a trabajar en el B.S.C. con horario fijo. Creí que se iba a ver un cambio en 2009, cuando me fui a vivir a Londres, pero parece que el cambio horario (sólo de una hora) no es suficiente como para visualizarse.

Más temas, interesantes, parece que mantuve una buena disciplina de escuchas durante bastante tiempo. El color ( de verde a rojo ) indica la intensidad de scrobbling, en mi caso se puede mapear fácilmente al tipo de música que escuchaba. Colores más verdes indican pocos scrobbles por hora (escuchando probablemente Dark Ambient o Post Metal) y las rojas indican muchos scrobbles por hora, probablemente Grindcore.

El próximo tema a destacar es Octubre del 2010 dónde claramente mi actividad baja, qué pasó? pues que me cogí 3 semanas y me fui a Nueva Zelanda. Y finalmente ya llegamos a Mayo de 2011, dónde mi actividad de scrobbles parece que empieza y termina antes, por una o dos horas, pues marca mi vuelta a España, con unos horarios un poco distintos a los que hacía de cuando estaba en el Reino Unido.

Qué os parece? visualizar 7 años de canciones (y cambios en mi vida) con una sola imagen.

Taller de Hadoop en Zaragoza

noreply@blogger.com (Anonymous) — Mon, 05 Sep 2011 06:54:00 +0000

El día 31 de Agosto dí una charla en Zaragoza sobre Hadoop, parte de los talleres que organiza Cachirulo Valley. Hoy quería subir las transparencias a slideshare cómo de costumbre, pero mirándolas me he dado cuenta de que no tiene mucho sentido ya que parece ser que mis presentaciones son muy gráficas. Así que he decidido hacer un pequeño resumen de la charla y colgarlo aquí. Espero que sirva para aclarar conceptos y como pequeña introducción a Hadoop.

Qué es Hadoop y para qué sirve ?
Primero vamos a poner un problema, y luego alguien lo va a solucionar muy bien.
Por allí al 200X Google tenía un problema, y este problema era básicamente una cantidad gigante de datos con que trabajar. Las soluciones que había por aquel entonces o bien no eran lo suficientemente potentes o eran demasiado caras, así que teniendo los recursos, la gente de Google diseñó su propia solución, que finalmente implementó, provó, puso en producción y finalmente, explicó a la comunidad mediante una serie de papers:

MapReduce: Simplified Data Processing on Large Clusters del que ya hablé en este mismo blog.
The Google File System.

Poco después, Doug Cutting, que estaba participando en un proyecto llamado nutch tuvo el mismo problema, qué hacer con tantos datos? encontró el paper de google y se puso a implementarlo, así de fácil, y así nació Hadoop, la implementación libre de los dos papers de Google.

Aquí, igual que en el taller me voy a servir de una muy buena definición de Hadoop, de Parand Tony Darugar:

"Flexible infrastructure for large scale computational and data processing on a network of commodity hardware".

Vamos a analizar la frase:

Data processing: Hadoop no está pensado para problemas matemáticos, no estamos calculando simulaciones, no estamos calculando grafos. Hadoop es para procesar datos. Si no tienes muchos datos de entrada te estás equivocando de Framework.
Network: I por qué en una red de ordenadores? pues porqué estás analizando tantos datos que no te caben en una sola máquina. Si los datos te caben en una sola máquina te estás equivocando de Framework.
Large Scale: Muchos datos y muchas máquinas.
Commodity Hardware: Tenemos una red de máquinas. El hardware va a fallar, estadísticamente los discos duros van a estropear-se, la RAM se averiará y las placas base se van a fundir. Si tenemos mucho hardware tenemos muchas posibilidades de que hayan desgracias, así que Hadoop está preparado para correr en máquinas "baratas". Si el hardware se va a estropear y habrá que reemplazarlo, al menos que sea barato no?
Flexible: Si sabemos que el hardware se va a estropear durante la ejecución, Hadoop debe estar preparado para soportarlo. Vamos a ver un poco más adelante más detalles de esto, pero para empezar diré que el sistema de ficheros tiene réplicas de los ficheros (por defecto 3), por lo tanto si una máquina se estropea durante la ejecución no pasa nada, el fichero está en 2 otras máquinas, Hadoop se va a enterar, va a clasificar la máquina como "averiada" y va a continuar el job en otra parte.

Qué es Big Data?
He insistido bastante en los "muchos datos", cuánto es exactamente "muchos datos"? pues es tan fácil como: "BIG DATA es cuando la cantidad de datos es un problema".

Para alguien serán 100 gb, para alguien serán 1Tb y para algun otro seran petabytes.

Vamos a profundizar un poco más con el tema del "problema". Yo personalmente creo que hay 3:

Tiempo: Las herramientas que uso funcionan bien con esta cantidad de datos, pero tarda mucho. Vamos a imaginar que tenemos una base de datos sobre la qual hay que correr una serie de procesos, el departamento de márketing necesita datos actualizados cada 10 horas. Si el proceso finaliza, pero tarda 15 horas tenemos un problema.
Las herramientas dejan de funcionar: Tenemos un programa que funciona bien, crecen los datos y la herramienta cada vez va más lenta, pero no es un problema. Llega un momento que la herramienta simplemente de queda congelada con el input de datos. Tenemos otro problema.
Los datos no caben en la máquina: Tenemos 1 Terabyte (o lo que sea) de datos a tratar y simplemente los datos no caben en la máquina y hay que moverlos a trozos por la red.

Worflow de trabajo en Hadoop.
Ya sabemos qué hace Hadoop y ya sabemos cuándo tiene sentido empezar a utilizarlo. Ahora bien, cómo se trabaja?
Hadoop consta de dos partes (como veremos en más detalle en el siguiente punto), un motor de map/reduce y un sistema de ficheros distribuido. Lo más importante en este punto es que nos imaginemos a Hadoop como una caja negra que es capaz de almacenar y transformar datos. Por lo tanto para trabajar lo que tenemos que hacer es:

Poner los datos nuevos en Hadoop (en caso de que haya): Ponemos los logs del día, los usuarios que se han dado de alta hoy, los eventos del día, etc, en el sistema de ficheros.
Tratar los datos con un programa map/reduce.
Sacar los datos del sistema de ficheros para ponerlos a un lugar dónde sean útiles. Vamos a recordar que de momento Hadoop es una caja negra, no es fácil que los del departamento de márketing usen los datos que hay en Hadoop, así que hay que sacarlos de allí y ponerlos en una base de datos, una nosql, una página web, lo que sea.

Cómo funciona Hadoop? (Map/Reduce y su amigo el DFS)
Hemos dicho que Hadoop almacena y transforma datos, almacena con un sistema de ficheros y trata los datos con un motor de map/reduce, vamos a verlos:

(H)DFS: Hadoop Distributed File System.
Vamos a empezar por el sistema de ficheros distribuido. Vamos a dejar claro que un sistema de ficheros distribuido es un tema muy serio y complejo. Nadie quiere poner sus ficheros en un sistema experimental con el riesgo de que desaparezcan ficheros, se corrompan o sean inaccesibles, por lo tanto, el principal requerimiento es su estabilidad y robustez.

El HDFS fue diseñado a partir del paper del Google File System, no me voy a liar mucho con la explicación de cómo funciona, pero voy a comentar algunas de sus características más importantes:

Simple by design: Aunque internamente un sistema de ficheros es muy complejo, el HDFS ha sido diseñado y implementado con un conjunto muy básico y limitado de funcionalidades. Así que no nos podemos esperar grandes "virguerías", al menos a nivel de usuario.
Robusto y replicado: Es robusto, recordemos que Hadoop está diseñado para ejecutarse en redes de hardware que puede estropearse en cualquier momento. El sistema de ficheros debe ser capaz de continuar trabajando efectivamente hasta un cierto nivel de error tolerable. Una de las características más importantes es que los ficheros están partidos por bloques, y que cada bloque está replicado 3 veces en el clúster, así que si una máquina cae o un disco duro se estropea no pasa nada, aún tenemos dos copias del bloque del fichero en la red.
Optimizado para Big Data: Los bloques son de 64 mb por defecto, por lo tanto, optimizado para la lectura y escritura de volumenes de datos grandes.
Escalable: El sistema debe escalar horizontalmente, si necesitas más espacio es tan fácil como poner más máquinas o ampliar los discos duros. El máster se va a encargar de repartir los bloques entre los nuevos nodos de forma transparente.
Transparente: Hemos dicho que el sistema es sencillo de cara al usuario y que es robusto y escalable, que es tolerante a fallos y que balancea su carga automáticamente y además, sin que el usuario se entere de lo que está pasando. El nodo máster se encarga de todo de forma totalmente transparence. En caso de que una máquina se estropee, el máster va a encargarse de ponerla en una lista negra y va a mirar qué bloques de ficheros contenía, y va a replicarlos (cogiéndolos de otras máquinas) hasta que el número de replicas vuelva a ser el deseado.

A nivel un poco más técnico, todo el sistema de ficheros está controlado por un nodo máster que se llama el NameNode, podéis ver más información aquí.

Map/Reduce
El motor de map/reduce es la parte que realiza los cálculos y transformaciones sobre los datos. Básicamente se trata de una serie de componentes software que ejecutan un programa, programado en Java (o alguna otra alternativa que veremos más tarde) que sigue el model de programación del mismo nombre (map/reduce).

Bien, pero qué es esto del map/reduce? pues se trata de un esquema de programación paralela que tiene sus orígenes en la programación funcional. Encontraréis mucha más información por la red, pero lo básico y lo importante ahora mismo es entender un poco el concepto, que es bastante sencillo.

Tenemos un problema, A, este problema es muy grande y no se puede tratar de forma individual, por lo tanto vamos a coger una función, a la que llamaremos mapper y la vamos a aplicar a trozos de A, de forma que tendremos:

A1 --> Mapper --> A'1

A2 --> Mapper --> A'2

...
Ax --> Mapper --> A'x

Ya tenemos parte del problema resuelto, pero en trozos, ahora toca aplicar el reducer, que es otra función que sabe interpretar y juntar los pequeños resultados que nos ha dado el mapper. De tal modo que:

[A'1, A'2, ... , A'x] --> Reducer --> Resultado.

No es más que aplicar el 'divide y vencerás' sobre un fichero muy grande. Lógicamente no todos los problemas se pueden resolver con este modelo de programación, es por esto que cale ver si Hadoop es la mejor solución antes de lanzarnos a crear un proyecto.

Ejemplos de código:
En el taller vimos un par de ejemplos (muy básicos y sencillos cabe decir). Están colgados en github y bastante comentados. Otro recurso para tutoriales de programación Java en Hadoop en su página oficial, bastante más completo.

Clúster virtual en EC2 vs Clúster local.
Tengo que admitir que soy bastante novato en este aspecto. Siempre he tenido la suerte de trabajar con un clúster dedicado así que eché una ojeada rápida para crear un pequeño clúster virtual en EC2. Según he visto hay 3 possibilidades:

Pico y pala: Creas los nodos manualmente y te instalas Hadoop.
Scripts en el src de Hadoop.
Apache Whirr.

Lógicamente escogí la más rápida, en este caso Whirr, que es un proyecto que trata de facilitarnos la creación de clústeres en plataformas de virtualización. El proyecto es bastante joven y aún le falta, pero ya se puede utilizar con unos resultados muy satisfactorios. Con este simple fichero de configuración pude crear un cluster en amazon:

whirr.cluster-name=hadoop
whirr.instance-templates=
1 hadoop-namenode+hadoop-jobtracker,
2 hadoop-datanode+hadoop-tasktracker
whirr.provider=aws-ec2
whirr.identity=*************
whirr.credential=***********
whirr.hardware-id=c1.xlarge
whirr.image-id=us-east-1/ami-da0cf8b3
whirr.location-id=us-east-1

Creo que es bastante autoexplicativo, pero podéis encontrar más detalles en su página web.

La clara ventaja sobre los clústeres virtuales sobre los clústeres físicos es claramente la inversión inicial ya que no hay que comprar las máquinas (y el espacio en el datacenter), ni pagar mensualmente la electricidad + mantenimiento, bla bla. Aunque sí que tengo que decir que he oído que el rendimiento de un clúster dedicado es mucho mayor a la que nos encontraremos utilizando un clúster virtual. Del orden de 10 veces más rápido, aunque este número tendría que verse de forma un poco más "científica", cómo dije, esto es un rumor que me dijo un usuario de EC2 que se pasó a clúster dedicado.

Ecosistema de Hadoop
Hasta ahora he hablado del core de Hadoop. Como se ha visto es muy potente, pero es bastante espartano y no da muchas facilidades amigables al usuario o programador. No obstante el proyecto tuvo una gran adopción, debido a que era software libre y a que básicamente era lo único disponible. Esto causó que muchas empresas pusieran recursos para mejorar el proyecto y crear pequeños proyectos auxiliares que con el tiempo se han convertido en partes importantes de un ecosistema muy activo.

Podéis encontrar más información sobre los proyectos que considero más interesantes en un post que ya escribí en este mismo blog.

Preguntas?
Esto ha sido una pequeña introducción a Hadoop, muy a grosso modo y sin entrar en detalles peliagudos. Como siempre, si tenéis alguna duda no dudéis en preguntarla en la sección de comentarios o bien contactando conmigo.

Hadoop NG, o cómo liarla gorda.

noreply@blogger.com (Anonymous) — Tue, 29 Mar 2011 09:55:00 +0000

Hace un tiempo vi en diferentes blogs de Yahoo! su propuesta para una reimplementación de una parte bastante importante de Hadoop. Una propuesta interesante, pero que creí bastante teórica. Bueno, pues la semana pasada pude ir a otra edición del grupo de usuarios de hadoop del reino unido, en el que Owen O'malley mismo presentó estas mismas ideas a la comunidad, podéis ver la página del evento así como las presentaciones en:

http://lanyrd.com/2011/an-evening-with-hadoop/

Entrando un poco más en detalle. Esta propuesta (que está en fase de testing en Yahoo! por lo tanto, de teórico nada) se trata de sustituir el JobTracker de Hadoop (la parte que lanza los jobs a los diferentes nodos que forman el cluster de Hadoop) por dos nuevos elementos:

Un Resource Manager / Scheduler: El cual cogerá los requerimientos del job en concreto y buscará un nodo capaz de poder realizarlo.
Un Node Manager en cada nodo: El cual monitorizará el nodo y informará al Resource Manager. Dentro de este nodo el Node Manager será capaz de crear un container, dentro del qual se ejecutará el mapper, el reducer, y lo que es más interesante: o lo que sea. Ya que este diseño pretende hacer de Hadoop un framework de programación distribuido general.

podéis encontrar más información ( y mucho más detallada ) en:

Mis primeras impresiones fueron bastante negativas. En primer lugar porque estamos sustituiendo un elemento QUE FUNCIONA de Hadoop por otro de mucho más complejo. Y en segudo lugar por la complejidad de este segundo elemento. No quisiera parecer conservador pero mis temores se fundamentan en la experiencia que tuve con otros middlewares de computación distribuida, en los que estabas más tiempo definiendo las características del job en un "formato simple de definición genérica de jobs" en XML que programando el job en sí mismo.

Otro aspecto es que como ya he dicho anteriormente este Node Manager permitiría no sólo crear containers con mappers o reducers, sino otro tipo de containers (implementados por la comunidad) en los que se podría lanzar otro tipo de procesos (intensivos de CPU, MPI, ...). Tampoco me hizo mucha gracia esto, y otra vez fue por culpa de alguna mala experiencia. Lo que me gustó de Hadoop desde el principio es que era un framework que sólo hacía una cosa, pero que la hacía muy bien. Cosa que no hacían otros, que intentaban hacer muchas cosas diferentes y no hacían nada bien.

Aproveché la ronda de cervezas del final de la reunión para ver más opiniones acerca de estos cambios, las conclusiones que saqué es que la gente es muy optimista, frases que oí mucho:

La comunidad hadoop será capaz de hacerlo bien.
Asi podremos aprovechar el cluster para más cosas.

Veremos qué tal la primera, espero que si :) en cuando a la segunda, es pura verdad.

Estoy viendo muchos clústers dedicados 100% a hadoop/map reduce. Esto no es necesariamente malo, pero como no me canso de decir, Map Reduce es un modelo de programación y va muy bien para unas cosas y va muy mal para otras. El hecho de que sólo haya instalado Hadoop en un cluster hace que todo tenga que estar programado siguiendo una estrategia map/reduce o tengamos que instalar otro framework (Condor/Globus/...) en las mismas máquinas. Por ejemplo he sido testigo de un intento (que acabó en nada) de implementar un Load Tester con Hadoop, cuando claramente map/reduce no es el modelo más apropiado (que se puede hacer ojo!, simplemente digo que hay cosas mejores).

Si la comunidad Hadoop consigue hacerlo bien Hadoop se puede convertir en un framework de sistemas distribuidos _genérico_, cosa que facilitaría mucho la tarea de administradores de sistema, ya que sólo tendríamos que tener Hadoop instalado. Pero bueno, estamos hablando de largo plazo.

Asi que más o menos, cambié de opinión, aún me quedan dudas sobre la complejidad de estos nuevos componentes.

Open Data Manual

noreply@blogger.com (Anonymous) — Thu, 17 Mar 2011 10:47:00 +0000

Me acabo de encontrar esto por los Internets:

http://opendatamanual.org/

Se trata de un documento que pretende, cito:

This report discusses legal, social and technical aspects of open data. The manual can be used by anyone but is especially designed for those seeking to open up data. It discusses the why, what and how of open data — why to go open, what open is, and the how to ‘open’ data

Muy interesante el contenido (aún no he tenido oportunidad de leerlo todo, pero bueno) y también el formato, dónde te permite hacer comentarios y discusiones en cada parágrafo.

Dev Fort

noreply@blogger.com (Anonymous) — Sat, 12 Mar 2011 17:56:00 +0000

Aunque este post salga bastante de la temática del blog creo que es interesante.

Últimamente he estado dando vueltas al tema de la productividad. Que si metodologías ágiles, que si buen equipo informático, que si las herramientas idóneas. Sí muy bien, pero no sería mejor meterse con el equipo de desarrollo durante una semana en castillo en una isla sin Internet ?

Pues esto existe y se llama /dev/fort

La idea es muy sencilla, se trata de ponerse con el grupo de desarrollo (diseñadores/programadores) en un lugar aislado, sin ningún tipo de conexión a Internet y concentrarse en una sóla idea y a implementarla.

La idea de desarrollar sin conexión a la red puede ser un poco chocante al principio, esto significa que tienes que ir bien preparado, con librerías, documentaciones y programas de desarrollo en el portátil, pero es sin duda una muy buena idea. Si contara las horas de productividad que he perdido en Reddit/Wikipedia/Twitter... en fin.

Volviendo al /dev/fort, unos compañeros de trabajo participaron en la quinta edición y hicieron esto: http://spacelog.org , la parte curiosa es que compraron el dominio en el aeropuerto de vuelta a la civilización mientras subían todo el código a github.

En fin, no deja de ser una idea interesante y curiosa. A lo mejor convierto casa mis padres en un castillo por el próximo desafío Abredatos :)

Experimento (Data Science y España)

noreply@blogger.com (Anonymous) — Wed, 09 Mar 2011 13:59:00 +0000

LinkedIn te da una gráfica en la que se muestra el número de veces que tu perfil sale en las búsquedas. Yo tengo un perfil bastante acorde a "data science" y lógicamente, la localización es Londres.

El otro día decidí hacer un experimento y cambiar la localización a Barcelona.

Puede, el avispado lector, adivinar qué día cambié la localización?

Mi presentación en el Huguk #7

noreply@blogger.com (Anonymous) — Fri, 17 Dec 2010 17:51:00 +0000

Y como ya anuncié en un post anterior, aquí teneis el video de mi presentación:

HUGUK#7 - Using HFile outside HBase by Marc de Palol (Last.fm) on Vimeo.

OpenData en Catalunya

noreply@blogger.com (Anonymous) — Thu, 25 Nov 2010 17:29:00 +0000

Hace poco la Generalitat se sumó a las iniciativas de otros gobiernos para la apertura de datos y abrió un nuevo portal: http://opendata.gencat.cat

Como me interesa mucho el tema decidí hacer una buena ojeada al portal y explicar aquí mis opiniones al respecto. Y aquí están (más vale tarde que nunca).

Asi que vamos a ver las secciones del portal, luego los datos y finalmente algunas conclusiones que se me ocurren:

Secciones:
El portal está dividido en tres secciones: El catálogo, el proyecto en sí y además otra sección que habla del Open Data.

Vamos a ver la sección de catálogo:
Está muy bien organizada, los datos están en subsecciones bien clasificadas y con datos destacados. De momento 12 conjuntos de datos. Lógicamente son pocos, pero también estamos hablando de un portal nuevo que tiene poco tiempo de vida, sin duda vamos a ver como se van añadiendo más.

El siguiente punto es una lista de aplicaciones ya hechas. Esto es muy importante de cada al ciudadano ya que permite demostrar que la apertura de datos es útil y que realmente aporta valor. Todas las aplicaciones (al menos eso me parece) están hechas por la Generalitat. Realmente me ha gustado que incorporaran esta sección ya que si no se corre el riesgo de que se haga la pregunta: "Y esto, para qué sirve?", aquí tienes la respuesta en forma de 8 aplicaciones prácticas. Espero que pronto pueda participar yo también!

Por si esta subsección no fuera suficiente para demostrar la utilidad del opendata para el ciudadano de a pie tenemos otra subsección con enlaces a proyectos en curso, unas quince aplicaciones más que utilizan los datos (todas impulsadas por la Generalitat parece).

El proyecto:
La siguiente sección es bastante sencilla, se explica qué es el proyecto y también una explicación del acuerdo de gobierno que ha hecho posible la creación del porta. Bueno muy bien, supongo que tenía que salir a algún lado, pero vamos a la sección ~~interesante~~ importante, la licencia.

No soy ningún experto, pero creo que son las que deben ser. Agradecería si algún experto en el tema me lo pudiera confirmar, pero lo más importante es para mi:

Reconeixement (by): Es permet qualsevol explotació de l'obra, incloent-hi una finalitat comercial, així com la creació d'obres derivades, la distribució de les quals també està permesa sense cap restricció.

Reconeixement - SenseObraDerivada (by-nd): Es permet l'ús comercial de l'obra però no la generació d'obres derivades.

Las dos Creative Commons.

Qué es Open Data
La última sección es un poco más de información sobre que es el Open Data, los diferentes formatos que existen y experiencias en otros paises, temas de los que ya he ido hablando en este blog, por lo que no me voy a enrollar mucho más. Vamos a otro tema más interesante, los datos que el portal ofrece:

Los Datos
Tenemos ocho secciones:

Trámites y procedimientos administrativos:

Tenemos 2 datasets, uno para trámites ciudadanos y otro para trámites de empresas, los dos en RDF. Después de echarle una ojeada al fichero veo que utilizan un redireccionador para las ontologías de términos (http://purl.org, yo no lo conocía pero está bien la idea). El fichero RDF está muy bien hecho, como dijo alguien en Twitter (ahora no me lo hagáis buscar por favor) el fichero está tan bien que se puede leer. Esto es mucho, recordad que hablamos de ficheros RDF.

Datos estadísticos: Esta sección nos ofrece unos links a la API REST de Idescat. Hice un wrapper de esta API en Java, la podéis encontrar en Github y la intento mantener al día con los cambios de la API (y lógicamente doy la bienvenida a cualquier tipo de colaboraciones).

Indicadores económicos: Diferentes datos económicos.
Poblaciones y muncipios de Catalunya: Lista de las poblaciones de Catalunya.
Rectificaciones de Idescat: Y rectificaciones de datos.

Datos geográficos y cartográficos:

Equipamientos de Catalunya: Otro fichero RDF (cuidadín que es grande, si lo intentais abrir con el navegador a lo mejor os fríe la máquina). Este fichero contiene los datos sobre 26000 equipamientos (escuelas, hospitales, bibliotecas...) como son teléfonos, horarios, direcciones. Un lujo vaya.
Cartografía de Catalunya: Mapas, muchos mapas, en formatos que yo desconozco.
Servicios de posicionamiento geodésico: También formatos muy raros :P

Datos visuales:

Imágenes y videos de Catalunya: Links a una API y una página web dónde puedes decargarte fotos y videos sobre Catalunya.

Datos lingüsticos:

Terminologia Abierta: Aquí podemos encontrar muchos XML's clasificados en areas temáticas con su traducción al catalán, español, francés e inglés.

Datos Metereologicos:

Predicciones: Ficheros XML con las predicciones metereológicas en diferentes zonas de Catalunya.

Datos de actualidad:

Noticias: RSS's con las noticias de las diferentes areas de la Generalitat.

Tránsito y mobilidad:

Transporte público: RSS's con las noticias de diferentes linias de Regionales (de la Generalitat)

Mis conclusiones:
Estoy muy contento que la Generalitat haya realizado este esfuerzo, lógicamente aún está muy lejos de monstruos com data.gov.uk (del Reino Unido) o data.gov (de U.S.A.) es un primer paso.

Los datos, aunque pocos aún, están muy bien estructurados y los formatos son los que tocan, de momento no me he encontrado ninguna sorpresa ni ninguna macro.

Sin duda ahora lo que toca es crear una buena comunidad que aporte ideas y lo más importante, aplicaciones reales para mejorar la situación ciutadana.

A raiz de esto estoy pensando en ampliar mi proyecto en github para hacerlo un poco más general y aportar mi granito de arena al #opendata Catalán. Si alguien se anima ya sabe a dónde encontrarme!

Presentación en el HUGUK #7

noreply@blogger.com (Anonymous) — Mon, 22 Nov 2010 17:48:00 +0000

La semana pasada hice una presentación en una de las reuniones de usuarios de Hadoop UK.

Se trató de utilizar el formato HFile fuera de su entorno, que es HBase. Os dejo la presentación en slideshare:

Espero que en poco tiempo pueda poner un link al video.

El Ecosistema Hadoop.

noreply@blogger.com (Anonymous) — Wed, 29 Sep 2010 21:19:00 +0000

Hadoop es sin duda uno de los proyectos que más acogida últimamente ha tenido entre la comunidad de software libre y es también uno de los responsables del auge de la ciencia de datos.
Hadoop es un framework, aunque hoy en día se puede hablar de todo un ecosistema de proyectos alrededor del nucleo, vamos a intentar explicar en este post los distintos componentes de forma senzilla:

vamos a empezar por el principio,

Hadoop
Con Hadoop nos referimos a la parte central del sistema, que es el sistema de ficheros distribuido (HDFS) y el motor de Map/Reduce. Si echamos un vistazo a la página del proyecto veremos que hay 3 subproyectos, calma y tranquilidad!, a efectos prácticos van totalmente juntos y es una separación que se hizo por temas de código fuente:

Hadoop MapReduce.
HDFS.
Hadoop - Commons.

Una vez aclarado el tema de la separación. Qué es Hadoop? Pues es la combinación de:

un sistema de ficheros distribuido (diferentes discos duros en diferentes máquines se ven como uno solo) (HDFS)
de un modelo de programación que se llama Map/Reduce, con su API en Java (Hadoop MapReduce)
y un componente software que ejecuta los programas que hemos programado con la API en un cluster, usando asi el sistema de ficheros distribuido.
y una serie de classes comunas (Hadoop - Commons)

Esto es lo básico que debemos instalar en el clúster para obtener la funcionalidad. De este modo podemos meter datos en el sistema de ficheros y tratarlos con nuestros programas programados con el API de Hadoop.

Vamos a ver qué más hay:

HBase

Una vez tenemos los datos procesados en Hadoop seguramente nos interesará tenerlos fácilmente accesibles para diferentes tipos de consultas, algo así como una base de datos con los resultados de Hadoop. Aquí es donde entra HBase.

HBase es una implementación libre del Bigtable de Google, es una de las famosas bases de datos NoSql. Como el nombre indica, no usa Sql, sinó que tiene una API, además el model de datos no es tabular, sinó que está basado en columnas de n dimensiones. Ya hablé de este modelo de datos en un post anterior.

A efectors prácticos, se tratan los datos en Hadoop mediante Map/Reduce y se escriben en HBase (importante saber que HBase está totalmente integrado con Hadoop, y que por lo tanto, HBase entiende perfectamente el sistema de ficheros de Hadoop asi como el formato de los ficheros), que puede estar en el mismo clúster que Hadoop o en otro, para que otras aplicaciones puedan utilizar los datos en tiempo real.

Zookeeper
Tanto HBase como Hadoop son sistemas distribuidos en los que el sistema debe controlar y saber en cada momento lo que está pasando en procesos que están en otras máquinas. Si hemos programado alguna vez este tipo de sistemas sabremos que eso no es una tarea fácil, nos vamos a encontrar todo tipos de problemas.

Zookeeper aparece justamente para solucionarlos. Igual que HBase es la implementación libre de un paper de google, en este caso de Google Chubby.

Básicamente es un sistema de locks distribuido y de consenso (utilizando Paxos), no hace mucho los ingenieros de LinkedIn lo usaron para un sistema interno y hicieron un post muy interesante, en el que utilizaron la siguiente definición, muy acertada en mi opinión:

ZK has a very simple, file system like API. One can create a path, set the value of a path, read the value of a path, delete a path, and list the children of a path. ZK does a couple of more interesting things:

(a) one can register a watcher on a path and get notified when the children of a path or the value of a path is changed,

(b) a path can be created as ephemeral, which means that if the client that created the path is gone, the path is automatically removed by the ZK server.

de: http://sna-projects.com/blog/2010/08/zookeeper-experience/

Asi que ya tenemos otra pieza del puzzle, si hay que sincronizar sistemas distribuidos (que utilizen o no Hadoop), podemos utilizar ZooKeeper.

Ahora toca el turno de hive, pero atención porqué después viene pig y aunque vamos a ver que son bastante diferentes, los dos proyectos pretenden solucionar un problema muy similar:

Hive
La principal incomodidad que tiene Hadoop es que para hacer una simple consulta de datos hay que escribir un programa completo en Java, y esto, no es rápido, es un poco difícil de debuggear y puede llegar a ser frustrante.

Pongamos el caso en que tenemos 500 Gb de datos del tipo:

Key: Integer
Value: Objecto(Id: Integer, valor1: Integer, valor2: Integer)

y que en un momento dado queremos un listado de todos los pares Key/Value dónde valor2 > 500.

Si los datos estuvieran guardados en una base de datos podriamos hacer una senzilla consulta Sql con un where. En Hadoop tocaría escribir un programa en Java. Pues bien, Hive al rescate.

Se trata básicamente de una infraestructura de data warehousing encima de Hadoop. Y esto que significa? pues básicamente se trata de crear unos metadatos encima de los directorios de HDFS describiendo el formato de los ficheros, asi pues creamos una estructura tabular virtual encima de Hadoop. Hive también tiene un intérprete de comandas sql, por lo tanto podemos escribir una consulta sql de toda la vida en la command line, luego hive coge el sql, lo convierte automáticamente en jobs Map/Reduce y estos son ejecutados de forma transparente en el clúster como jobs normales.

Si quereis más información, anteriormente hice un post hablando de hive con más detalle.

Pig
Otro modo de ver el anterior problema es: en vez de escribir un programa en Java para hacer una consulta de unos datos, voy a hacerlo con nserta aquí tu lenguaje de scripting favorito>. Hadoop tiene como parte del Hadoop Core una opción de streaming. Básicamente te permite especificar como parámetro dos scripts (uno que hace de mapper y otro que hace de reducer) que leen y escriben por la entrada y salida estándar. Esto es práctico pero te limita a unos programas muy sencillos y poco aplicables a la vida real.

Pues bien, Pig es un lenguage de programación (tipo scripting) para Hadoop, y por lo que estoy viendo parece que tiene una muy buena aceptación en la comunidad Hadoop (pero que muy buena aceptación).

Avro
Una de los puntos fuertes del ecosistema Hadoop es que facilita trabajar con grandes cantidades de datos. Estos datos están guardados en el HDFS, pero cómo? pues se pueden guardar en diferentes formatos, el más simple es el de texto plano, pero normalmente se recomienda usar serialización.

Qué es la serialización? pues se trata de como almacenamos la información internamente de un objeto a disco (o memoria), podemos leer más en la wikipedia. Para Hadoop lo más interesante son los formatos binarios, que son los más rápidos y comprimidos, el problema es que un humano no los puede leer, pero en este caso no nos importa.

Tenemos diferentes formatos:

Protocol Buffers, creado por Google.

Thrift, creado por Facebook.

y otros dos, creados por los programadors de Hadoop:
RecordIO: Hasta hace pronto el formato de serialización de facto en Hadoop, bastante interesante en su implementación, pero con algunos problemas en temas de mantenimiento a largo plazo (los objetos generados son estáticos, esto significa que si modificamos las características del objeto (introducimos un nuevo campo) el objeto nuevo será incompatible con el viejo). Si echamos una ojeada a la documentación veremos que está deprecated by... si señor:

Avro.

Tiene unas características muy interesantes, básicamente:
Permite almacenar estructuras de datos simples y complejas (desde números hasta objectos con listas y maps)

Es compacto, rápido y binario. (Esto no es mucha novedad)

Tiene un format de fichero propio.

Tiene una especificación de RPC. (como Thrift)

Y lo más interesante: El esquema de serialización (el índice que dice que tipo de datos está en cada posición del fichero) está incluido en el fichero en si. Esto permite que la generación de código por parte del precompilador sea opcional y lo que es más importante, hace que podamos canviar la estructura interna de los objectos almacenados sin perder la compatibilidad con ficheros viejos.

Por lo tanto, si trabajais con Hadoop, a serializar los datos con Avro desde ya.

Flume
The "new kid in town". Flume fue liberado por Cloudera no hace ni medio año y ya ha tenido una gran adopción.

La idea es muy sencilla, se trata de una pipe al HDFS.
Lógicamente para trabajar con Hadoop debemos tener los datos en el HDFS, y tenemos diferentes herramientas para poner los ficheros allí, el problema es que cuando tenemos diferentes fuentes de datos (el syslog de muchos servidores web por ejemplo) hay que construir una infraestructura que se asegure que los logs se van subiendo periódicamente y que no falte ninguno. Pues bien, Flume es exactamente esto. Además utiliza ZooKeeper, por lo tanto es:

tolerante a fallos ( si un nodo cae de la red, cuando se vuelva a conectar sabrá que tiene que enviar de nuevo ),

tiene configuración distribuida (puede reconfigurar los nodos cliente a partir de un nodo máster)

Y no se acaba aquí! hay más, mucho más en Hadoop, pero creo que estos son los proyectos más interesantes y que estás más ligados a Hadoop.

Echáis en falta alguno?

El ciclo de los datos, de la generación al uso.

noreply@blogger.com (Anonymous) — Sun, 12 Sep 2010 22:50:00 +0000

Trabajar con grandes cantidades de datos es complicado. Muchas empresas están incorporando Map/Reduce, básicamente su implementación libre, Hadoop para el tratamiento de sus datos. El ecosistema de herramientas de Hadoop va creciendo también, y cada vez es más complejo, ya que tiene que solucionar muchos casos, pero aún le falta alguna pieza para completar el ciclo total de los datos.

Con "ciclo total de los datos" me refiero a las diferentes fases del proceso, en Hadoop normalmente:

Ingestión de datos en el sistema de ficheros: Hadoop trabaja sobre DFS (normalmente), así pues tenemos que enviar los datos al clúster.
Tratamiento de datos: Operaciones Map/Reduce en Hadoop.
Visualización o acceder a los datos: Una vez tenemos los resultados de los trabajos, hay que sacar los datos del DFS para poder presentarlos.

El primer punto es bastante interesante. Hadoop es útil cuando trabajamos con muchos datos (>Gbs), ahora bien, los datos deben estar en el DFS, esto puede ser un problema. El framework ofrece diferentes comandas para insertar ficheros, en mi caso un poco de scripting combinado con estos comandos siempre ha sido suficiente. Aunque estoy empezando a considerar usar Flume, un proyecto de Cloudera muy interesante que inserta datos en el sistema de ficheros distribuido como si fueran Pipes de Unix.

El segundo punto es bastante sencillo, ya que es el nucleo de Hadoop. Una vez finalizado estamos en el tercer punto, algunas veces el volumen de datos de salida será mucho inferior respecto a la entrada, a veces similar, y otras muy mayor.

Lógicamente nos interesan estos datos de salida, y la mayoría de veces necesitaremos sacarlos del DFS para poderlos estudiar, visualizar, o como es mi caso, servir a través de un servicio web.

Por qué hay que sacar los datos del DFS? por qué no los puedo usar desde allí?

Básicamente el problema viene del diseño del DFS en sí mismo, el sistema de ficheros está optimizado para los trabajos de Hadoop, que leen sequencialmente todo el fichero, esto significa que el sistema es muy lento leyendo posiciones aleatorias en un fichero. A efectos prácticos esto significa que haya mucha latencia y que no sea factible servir datos de forma rápida.

La solución más viable si no queremos (o no podemos) mover los datos es usar HBase, aunque de momento no es considerado como la mejor opción para servir las peticiones de una página web con un volumen importante de datos, aunque la comunidad está poniendo muchos esfuerzos para mejorar este tipo de rendimiento (lectura en posiciones aleatorias de ficheros) así como la estabilidad. Pero bueno, esto es otra historia.

Así pues, qué se hace para solucionar este tercer punto?

Lo más común es volcar los contenidos de los ficheros de DFS a una base de datos o a una K/V Store. Aunque tampoco es trivial.

El primer caso, sacar los ficheros y insertar el contenido a una RDBMS, caso plantea unos problemas bastante interesantes, básicamente se pueden hacer dos cosas:

Meterle caña a la base de datos: Una vez tenemos los ficheros del DFS se pueden convertir a SQL, luego se sube este fichero a la base de datos (con un copy), se crea una tabla nueva y se hace un swap. El problema? pues que si la nueva tabla ocupa 90 Gbytes y lo tienes que hacer cada día a lo mejor el administrador de la base de datos te viene chillando como un poseso (comprobado).
Insertar sólo las deltas: Esta solución puede parecer más diplomática. Se trata de calcular (si se puede) las diferencias que hay entre la salida de Hadoop con el contenido de la base de datos, el resultado será una bateria de inserts, otra de updates y otra de deletes. Esta solución no es senzilla programáticamente y tiene el problema que hay que volcar los contenidos de la base de datos a Hadoop para que se pueda ver que ha cambiado.

Nótese que en ningún momento estoy recomendando hacer las operaciones contra la base de datos desde los reducers de Hadoop, a no ser que queramos hacer un DDoS a nuestra base de datos (o que odiemos al DBA).

El segundo caso (utilizar una K/V Store en vez de una base de datos relacional) dependerá mucho de la K/V Store que utilizemos, pero la idea es la misma, podemos intentar actualizar los datos desde Hadoop y arriesgarnos a que se caiga todo o crear un fichero para que la K/V lo lea, en este caso jugamos un poco con ventaja ya que el movimiento NoSQL ha ido muy ligado al movimento Hadoop. Esto significa que muchas bases de datos no relacionales ya tienen un "conector".

Algunos ejemplos:

Apache Cassandra: Se puede utilizar un OutputFormat especial para que la salida de los jobs de Hadoop sea totalmente compatible con los ficheros de almacenamiento que usa Cassandra, asi pues, sólo se trata de crear estos ficheros, enviarlos a los nodos de Cassandra para que los lean. Feature un poco experimental a día de hoy.
MongoDB: También hay un OutputFormat , en este caso escribe el resultado del tratamiento en Hadoop en BSON. El formato no forma parte de la distribución de MongoDB a día de hoy, está en un proyecto en github (no he podido probarlo aún, pero me muero de ganas).
Voldemort: Fue creada por los chicos de LinkedIn justamente para solucionar este problema, tiene soporte de Hadoop por defecto.
HBase: Aunque he dicho que no es la mejor solución para servir datos online cabe decir que tiene soporte de leer ficheros generados por Hadoop por defecto.

Recientemente he estado trabajando mucho en este tema y he estado modificando un servicio web para solucionar en parte este problema. Voy a presentarlo en la séptima reunión del HUGUK el próximo 7 de noviembre (creo), espero poder colgar las transparencias y hacer un post aquí cuando lo tenga todo listo.

Mientras, hay alguien que tenga alguna sugerencia para solucionar todo este follón ?

Linked Data y Government 2.0

noreply@blogger.com (Anonymous) — Fri, 03 Sep 2010 13:09:00 +0000

Hace poco se publicó la página web http://www.legislation.gov.uk/ del gobierno inglés. Se trata (como podemos leer en http://data.gov.uk/blog/legislationgovuk-api) de una lugar en dónde se pueden consultar todas las leyes que afectan a Inglaterra, Gales, Irlanda del Norte y Escocia así como sus cambios a través del tiempo.

Qué gracia tiene? pues dos:

Incluye una API para que terceros desarrollen aplicaciones y
Cada ley está identificada únicamente por una URL, y está descrita con RDF, por tanto, es un resource de Linked Data.

A efectos prácticos (técnicos) esto significa que una aplicación con conocimiento semántico pueda interpretar las leyes y que estas sean únicas y referenciables siempre, un requisito de la Web de Datos ( o 3.0).

A efectos prácticos (no técnicos) esto significa que el gobierno británico continúa adelante con su apuesta por abrir sus datos para desarrolladores y colabora a la construcción de la Web Semántica.
Recordemos que el gobierno británico, juntamente con el americano, son los que están apostando más con lo que se llama el Gobierno 2.0 (o Open Government, o e-Gobernment, o ...). La página http://data.gov.uk/ es simplemente espectacular.

Y en España?
En España el tema no está nada mal, podría ser peor lógicamente, pero tenemos algunos gobiernos autonómicos (como el basco) que están publicando sus datos y Institutos de Estadística que también lo hacen (yo mismo hice una implementación en Java de la API del Idescat). Y también aparecen iniciativas como las del concurso Abredatos 2010, de las que salieron proyectos muy interesantes.

Durante el concurso Abredatos, participé con un amigo y la principal dificultad (bueno, la segunda, nuestra principal dificultad fue el CSS de la página) fue sacar los datos de diferentes páginas. El INE ofrece datos, pero desgraciadamente es muy difícil parsearlos, los datos están pensados para visualizarlos desde la web, o para descargarlos con excel (cada fichero con un formato diferente por cierto).

Es en este sentido que la apertura de datos en España podría mejorar mucho, mis requerimientos para una apertura de datos real serían:

Abrir los datos con una licencia no restrictiva.
Publicarlos via API
Describir los datos semánticamente.

En la conferencia NoSql - EU 2010 vi una presentación de unos programadores de The Guardian, en ella explicaban sus experiencias con bases de datos no relacionales, uno de los ejemplos (con Redis) se trató del escándalo de los gastos de los ministros en Inglaterra.

El gobierno publicó en pdf miles de documentos con las facturas de los ministros. Lógicamente se tardaría mucho en poder revisarlos uno por uno, lo que hiciero fue crear una página web dónde los ciudadanos podían ver facturas aleatorias, y seguidamente clasificar la factura como "escandalosa" (para que un reportero del diario la revisara) o como "aceptable". He aquí un muy buen ejemplo de lo que se puede ganar la ciudadanía con las nuevas tecnologías y la apertura de datos y lo que pueden perder algunas personas que están muy bien acostumbradas.

Por cierto, esta es la presentación de The Guardian (el tema de los gastos empieza en la página 46):

Cuidado con los fanboys!

noreply@blogger.com (Anonymous) — Sat, 28 Aug 2010 21:29:00 +0000

Hadoop, Big Data, NoSql y compañía han tenido bastante repercusión. Es fácil encontrar noticias relacionadas en las portadas de algunos de los medios más importantes, se han creado muchas startups relacionadas y ha habido mucha controversía y algunas que otras discusiones poco sanas entre algunos expertos.

Y lógicamente, ha pasado lo que tenía que pasar, han aparecido los fanboys.

NoSql está muy bien, Hadoop también, pero estos softwares, arquitecturas, modelos de programación son soluciones para problemas muy concretos, y recordemos, son relativamente jóvenes, vayamos con cuidado, tienen sus limitaciones.

Os dejo con un video muy representativo de lo que no tendría que pasar (pero pasa), en este caso una discusión entre un osito fanboy de MongoDB (una base de datos genial por cierto) y un osito con dos dedos de frente.

Comentarios sobre el artículo "the seven secrets of successful data scientists" de Dataspora.

noreply@blogger.com (Anonymous) — Fri, 27 Aug 2010 18:01:00 +0000

Acabo de leer el siguiente artículo: "The seven secrets of successful data scientists", de Dataspora (blog muy recomendable por cierto), definitivamente no podría estar más de acuerdo. Resume muy bien algunos de los problemas que he descubierto "a batacazos" durante los dos años en los que he estado trabajando con Big data.

Veamos los puntos:

Choose The Right-Sized Tool (Usa la herramienta que toque): Muy importante. Hadoop está muy bien, pero sólo tiene sentido si realmente tienes gigabytes de datos. Si tienes pocos datos usa macros de vim, si tienes unos pocos más con las herramientas estándar de Unix y algún lenguaje de scripting bastará.

Compress Everything (Comprímelo todo): Tengo un post pendiente que habla de esto desde hace mucho tiempo. Cuando se trabaja con datos normalmente la CPU no es el problema. La mayoría de veces es el disco (ya que se usa mucho para sustituir la falta de memoria), la solución es comprimir.

Split Up Your Data (Parte los datos): Divide y vencerás, pues eso, de hecho se llama "sharding", pero cuidadín al elegir cómo partes los datos.

Sample Your Data (Samplea, estadísticamente hablando, claro): Un paso importante del desarrollo del software es la parte de testing. Lógicamente muchas veces no se puede disponer de todo el conjunto de datos de entrada, la solución será poder coger un subconjunto estadísticamente representativo de la entrada para probar el programa.

Smart Borrows, But Genius Uses Open Source (usa código abierto): Nada a decir aquí, antes de redescubrir la rueda pásate por github o google code a dar un vistazo.

Keep Your Head in the Cloud (Mantén tu cabeza en la nuve, o trabaja en local, dónde quiera que sea "local"): Fallo muy clásico, estamos hablando de muchos datos. Cuando debas manipularlos quieres hacerlo localmente, no quieres mover Terabytes de datos de una máquina a la otra porque la otra tiene un poco más de memoria.

Don’t Be Clever (No te pases de listo): No se hasta qué punto estoy de acuerdo con este punto, supongo que muy personal, aunque me gusta la última conclusión: mantén el diseño simple.

Cheat Sheet per Nosql.

noreply@blogger.com (Anonymous) — Mon, 12 Jul 2010 22:17:00 +0000

Us deixo aquí un link molt interessant amb una 'Cheat Sheet' amb un resum del que són i per què s'utilitzen les tecnologies Nosql, a més amb exemples de MongoDB:

http://refcardz.dzone.com/refcardz/getting-started-nosql-and-data

Hadoop Summit 2010

noreply@blogger.com (Anonymous) — Sat, 03 Jul 2010 14:55:00 +0000

Sembla ser que el jet-lag comença a desaparèixer, per tant em poso a explicar el meu viatge a San Francisco per estar al Hadoop Summit 2010, fer una visiteta a alguns ex-companys de feina i unes visites a les oficines de Twitter, Facebook, LinkedIn i Cloudera.

Algo sèrio, bé, comencem pel començament:

Dia 1: LinkedIn + Cloudera.

Vam visitar el "data team" de LinkedIn, una gent molt interessant, apart de treballar en Hadoop (i per cert, ténen uns clusters bastant grossos) són els que han fet Voldemort, una K/V store en la qual serveixen les dades a la pàgina.

A més, ens van donar la oportunitat d'explicar com utilitzem Hadoop a last.fm i esmorzar :).

A la tarda vam anar cap a Cloudera, a on organitzaven un Hackaton de temes relacionats amb Hadoop. Més que els hacks en sí va ser interessant conèixer a la gent de Cloudera i altres que s'havien acostat a l'event, gent d'Infochimps i d'Opscode entre d'altres.

Dia 2: Hadoop Summit 2010.

El plat principal del viatge. Van vendre totes les entrades, hi havia aproximadament 1000 persones i les xerrades estaven repartides en 3 tracks diferents, aplicacions, desenvolupament i investigació. El hashtag era #hadoopsummit .

Tinc 8 folis de llibreta de notes que vaig pendre, per tant intentaré fer un resum del que vaig trobar més interessant, però primer, parlaré del que em va sorprendre més: la barreja de gent que hi havia.

Hi vaig trobar dos grans grups de persones, els que ja utilitzaven Hadoop i que per tant els interesava saber què s'està fent i com continuarà el projecte i els que volien començar a utilitzar Hadoop.

En aquest subgrup em vaig trobar i vaig parlar amb molta gent de consultories, de bancs i d'empreses d'assegurances. El seu cas és bastant curiós, els seus departaments d'IT han vist que Hadoop els pot ajudar molt en moltes de les seves activitats de mineria de dades i de processament, però els managers no s'acaben de fiar de que sigui software lliure. Una mica la història de sempre, gent que està més preocupada en escalar posicions dins de l'empresa que d'estar al corrent del que passa al món real.

Però bé, tornant a l'event en sí.

Com ja he dit, no faré un resum exhaustiu de tot el que es va parlar, però algunes de les idees més interessants:

Novetats dins Hadoop:

Facebook, Cloudera i Yahoo! estan començant a emmagatzemar Petabytes d'informació i estan creixent de forma exponencial. I en general molta gent utilitza Hadoop com a Data Warehouse.
La majoria d'empreses que ténen els seus propis clusters utilitza màquines amb 12 discs durs (la majoria de vegades d'1 Tb), per tant, 12 Tb per màquina.
Facebook i Yahoo! (les dues empreses ténen gent dedicada al 100% a desenvolupar Hadoop) estan invertint la majoria d'hores de commiters a millorar el DFS i el Namenode (el sistema que s'encarrega d'administrar el sistema de fitxers), bàsicament a fer-lo més estable (més encara ) i a permetre rèpliques i un possible Namenode secundari.
Hadoop ara incorpora seguretat (de forma opcional) amb certificats Kerberos. El projecte mai havia tingut en compte la seguretat, però hi ha moltes empreses usuaries (bancs, departaments de defensa (si si, departaments de defensa), consultories ) han apretat molt perquè Hadoop fos compatible amb Kerberos i tecnologies similars.
Facebook crearà la seva propia distribució de Hadoop.

Hadoop i Amazon AWS:

No sóc usuari dels Amazon Web Services, bàsicament perquè mai n'he tingut la necessitat, sempre he treballat en companyies que tenien les seves pròpies màquines, però en sóc un gran fan. Des de fa un temps Amazon ofereix màquines virtuals amb Hadoop instal·lat, em va sorprendre la quantitat d'empreses que ho utilitza dia a dia. Els punts més interessants:

La imatge de Hadoop que ve instal·lada amb les màquines incorpora de sèrie Hadoop, Pig i Hive, s'està treballant per incorporar HBase.
Permet ampliar i reduïr la mida del cluster en calent. Hi ha moltes empreses que ho utilitzen, per exemple, ténen un cluster de 4 màquines durant els dies de setmana per còrrer els seus treballs diaris i llavors per processar els treballs del cap de setmana (molt més grossos) amplien el cluster a 10 màquines, i quan els treballs estan acabats, tornen a les 4. Molt interessant, sobretot pel punt de vista econòmic.
Empreses com Netflix ténen tota la seva infrastructura de Data Warehousing a Amazon. Així no han de mantenir el seu propi cluster i poden dedicar més esforços a altres temes.

En general però la impressió que m'estic enduent és que cada vegada hi ha més empreses (de noves tecnologies i d'altres) utilitzant Hadoop, ja sigui en les seves pròpies màquines o bé en clústers virtuals, a més, estan apareguent empreses com Cloudera, Datameer i Karmasphere que dónen suport i eines relacionades en Hadoop, un fet que prova que Hadoop està sient acceptat per la comunitat i per les empreses.

Dia 3: Twitter + Facebook.

L'últim dia vam anar a Twitter, a veure a Johan Oskarson, ex-Last.fm. Està a l'equip d'analytics desenvolupant la integració de Cassandra amb Hadoop. Ens va portar a fer un tour per les oficines i ens van convidar a dinar.

Cap a la tarda a les oficines de Facebook, al grup d'usuaris de HBase, que és la implementació de Google Bigtable que ha fet la gent de Hadoop i que Facebook utilitza bastant ( té 3 enginyers només dedicats al seu desenvolupament).

A la reunió es van presentar les novetats d'HBase per la nova versió (0.9). De nou, es podria fer tot un post sobre el que es va dir, però intentaré resumir-ho en uns pocs punts:

S'ha treballar per la estabilitat del codi (abans era bastant inestable)
S'ha treballat en millorar la rèplica entre datacenters i la tolerància a fallades.
La velocitat de HBase és semblant a la Cassandra. Això són paraules gruixudes ja que sempre s'havia catalogat HBase com incapaç de servir dades per una pàgina web. Es veu que ara si (jo no ho he provat).
Facebook deixarà Cassandra (recordem que Cassandra surt de Facebook justament) per utilitzar HBase. Això també són paraules gruixudes. Molt gruixudes.

Enllaços relacionats:

Aquí podeu trobar més enllaços sobre el summit:

http://perspectives.mvdirona.com/2010/07/03/HadoopSummit2010.aspx
http://mndoci.com/2010/06/30/massive-data/
http://www.r-bloggers.com/my-experience-at-hadoop-summit-2010-hadoopsummit/
...

Enllaços de la setmana (II)

noreply@blogger.com (Anonymous) — Mon, 14 Jun 2010 14:24:00 +0000

Un parell d'enllaços que he trobat durant la setmana:

You're doing it wrong: Article molt interessant de Poul-Henning Kamp, de FreeBSD, creador d'entre d'altres, de la llicència Beerware, sobre la repercusió de la memòria virtual i la paginació en els algorismes.
Java Simon: Una llibreria de Java per monitoritzar el rendiment de les aplicacions. Molt senzilla d'usar.

Enllaços de la setmana (I)

noreply@blogger.com (Anonymous) — Sun, 06 Jun 2010 20:18:00 +0000

Obro una "nova secció" al blog, cada setmana intentaré posar els links més interessants que he anat trobant. Ja aviso que no tot seran novetats dins el món de la informàtica distribuïda, però sempre hi tindran (espero) alguna cosa a veure.

Comencem amb la primera setmana:

Java Community Process: No té res de nou, però és la pàgina principal per fer investigacions sobre com funciona el llenguatge Java i la màquina virtual under the hood.
Article molt interessant sobre eficiència en servidors multiprocessadors en Java: Més Java, aquest link és un article bastant tècnic sobre les millores d'eficiència quan es fan còrrer diversos (o alguns) processos Java en un sol processador en comptes d'un multiprocessador. És lectura obligada per programadors de servidors en Java, i promet discussió.
Article d'Oreilly sobre què és la Data Science: Ja n'he parlat alguna altra vegada de la Data Science. Aquest és un article/explicació que va ser molt popular la setmana pasada per Internet.
Vídeo molt interessant sobre Data Science: I més Data Science, aquesta vegada en format vídeo d'una de les enginyeres de bit.ly

Rest vs Soap (II)

noreply@blogger.com (Anonymous) — Fri, 28 May 2010 13:04:00 +0000

Us deixo un enllaç molt interessant sobre l'estat de les API de serveis d'Internet al 2009 i 2010:

http://www.readwriteweb.com/cloud/2010/05/pen-api-madness-the-party-has.php

Fixeu-vos en la gràfica que mostra el número de crides REST vs SOAP.

La màquina virtual de java (I)

noreply@blogger.com (Anonymous) — Tue, 25 May 2010 06:16:00 +0000

Aquests últims dies he estat intentant informar-me de quines són les millor tècniques per optimitzar processos Java. Hi ha molta informació a la web, la majoria està a la pàgina oficial de ~~Sun~~ Oracle.

He intentat fer un petit resum per si a algú li interessa. Lògicament és una petita introducció amb molts de links a les pàgines amb la documentació oficial.

Primer, unes consideracions sobre optimitzacions i "benchmarks" que crec que són importants:

Java SE 6 no va introduïr moltes novetats pel que fa a la API. Bàsicament és una actualització que atacava la performance de Java. Podem veure algunes gràfiques comparant els diferents rendiments a [7]. Per tant, és important que ens assegurem que sempre tinguem la última versió de Java instal·lada al sistema. Un altre tema és que la informació que trobareu aquí parla exclusivament de la VM Hotspot (de Sun). Hi ha altres VM, amb altres rendiments, com podeu veure a [8].

En quant a les monitoritzacions, sempre que provem alguna cosa cal que les dades i l'estat de la màquina sigui el mateix. Tot i això en java cal tenir en compte:

Warmup: La JVM funciona interpretant codi compil·lat. Segons la modalitat en que s'estigui executant (client o server) detectarà mètodes hot (que s'usen molt sovint) i els compilarà a codi natiu de la màquina per millorar-ne el temps d'execució. Això fa que el rendiment millori a mesura que s'executa el programa.
Garbage collection (GC): He pogut comprovar que la majoria de tècniques d'optimització en Java tenen a veure amb la gestió del GC i de la memòria. Malauradament el tema és molt complexe i es mereix un post ( o un llibre ) per si sól.
Mesurament de temps: En cas de que volguem pendre mesures de temps del programa i que no tinguem un profiler a mà Java ofereix dues crides que retornen temps. Es veu però que la System.currentTimeMillis() no és del tot fiable (sobretot en sistemes operatius Windows) i es recomana utilitzar la System.nanoTime().

Finalment tenim la interpretació de resultats. No hi ha prou en executar-lo una vegada. Si es pot s'hauria de fer un anàlisi estadístic (més sobre tot això en un pròxim post).

Un cop feta la introducció al tema, comentaré alguns dels links més interessants que he trobat:

Java Tuning Whitepaper [1], tot i que sigui del 2005, és un molt bon recurs introductori. Molt genèric i fàcil d'entendre. Com ja he dit abans, bàsicament es parla de memòria i de GC.

La màquina virtual de Java té les opcions que formen part dels Ergonomics, que són les opcions que permeten modificar el comportament a l'hora d'executar els divesos programes, les opcions més conegudes són:

Xms: La quantitat de memòria inicial del programa. Si no donem una mida inicial aquesta serà de 2 Mb.
Xmx: La quantitat màxima de memòria que la màquina virtual estarà permesa a utilitzar.

Lògicament, hem de vigilar a l'hora d'asignar aquests valors, ja que influiran molt en el rendiment del programa, com més memòria millor, ara bé, com més memòria més haurà de treballar el GC i menys quedarà pel sistema operatiu, cosa que pot ocasionar que el rendiment general del sistema es vegi perjudicat.

Algunes opcions relacionades amb el GC [2]:

The -XX:+UseParallelGC parallel (throughput) garbage collector.
The -XX:+UseConcMarkSweepGC concurrent (low pause time) garbage collector (also known as CMS)
The -XX:+UseSerialGC serial garbage collector (for smaller applications and systems)

Una de les opcions que no coneixia d'abans és la de canviar la mida de les pàgines de memòria, bàsicament modificarem la mida de la TLB (Translation-Lookaside Buffer) que és la part de memòria que manté les traduccions de memòria virtual a memòria física. Ampliant la mida de les pàgines també ampliarem la mida de la TLB, i per tant seran menys fallades a l'hora de buscar adreces de memòria. Pot millorar l'eficiència d'aplicacions que utilitzin molta memòria. Cal tenir en compte que es pot afectar negativament l'eficiència del sistema, ja que l'aplicació pot fer un us execessiu de memòria fent que la resta del sistema es quedi curt, a més no és fàcil de configurar (s'ha de fer canvis a nivell del SO) podeu trobar instruccions aquí [3].

I més opcions llistades a [4], de les quals destacaria:

XX:+UseFastAccessorMethods: Use optimized versions of GetField.
XX:+StringCache: Enables caching of commonly allocated strings.

El document també té una secció molt interessant amb exemples explicats [5].

Finalment us deixo una llista de links bastant interessants sobre la JVM:

Referències.

[1] http://java.sun.com/performance/reference/whitepapers/tuning.html

[2] http://java.sun.com/docs/hotspot/gc5.0/gc_tuning_5.html

[3] http://java.sun.com/javase/technologies/hotspot/largememory.jsp

[4] http://java.sun.com/javase/technologies/hotspot/vmoptions.jsp#PerformanceTuning

[5] http://java.sun.com/performance/reference/whitepapers/tuning.html#section4.2

[6] http://java.sun.com/performance/reference/whitepapers/6_performance.html

[7] http://java.sun.com/performance/reference/whitepapers/6_performance.html#2.3

[8] http://www.usenix.org/event/jvm02/full_papers/jacob/jacob_html/node12.html