lunes, 12 de julio de 2010
Cheat Sheet per Nosql.
Us deixo aquí un link molt interessant amb una 'Cheat Sheet' amb un resum del que són i per què s'utilitzen les tecnologies Nosql, a més amb exemples de MongoDB:
sábado, 3 de julio de 2010
Hadoop Summit 2010
Sembla ser que el jet-lag comença a desaparèixer, per tant em poso a explicar el meu viatge a San Francisco per estar al Hadoop Summit 2010, fer una visiteta a alguns ex-companys de feina i unes visites a les oficines de Twitter, Facebook, LinkedIn i Cloudera.
Enllaços relacionats:
Algo sèrio, bé, comencem pel començament:
Dia 1: LinkedIn + Cloudera.
Vam visitar el "data team" de LinkedIn, una gent molt interessant, apart de treballar en Hadoop (i per cert, ténen uns clusters bastant grossos) són els que han fet Voldemort, una K/V store en la qual serveixen les dades a la pàgina.
A la tarda vam anar cap a Cloudera, a on organitzaven un Hackaton de temes relacionats amb Hadoop. Més que els hacks en sí va ser interessant conèixer a la gent de Cloudera i altres que s'havien acostat a l'event, gent d'Infochimps i d'Opscode entre d'altres.
Dia 2: Hadoop Summit 2010.
El plat principal del viatge. Van vendre totes les entrades, hi havia aproximadament 1000 persones i les xerrades estaven repartides en 3 tracks diferents, aplicacions, desenvolupament i investigació. El hashtag era #hadoopsummit .
Tinc 8 folis de llibreta de notes que vaig pendre, per tant intentaré fer un resum del que vaig trobar més interessant, però primer, parlaré del que em va sorprendre més: la barreja de gent que hi havia.
Hi vaig trobar dos grans grups de persones, els que ja utilitzaven Hadoop i que per tant els interesava saber què s'està fent i com continuarà el projecte i els que volien començar a utilitzar Hadoop.
En aquest subgrup em vaig trobar i vaig parlar amb molta gent de consultories, de bancs i d'empreses d'assegurances. El seu cas és bastant curiós, els seus departaments d'IT han vist que Hadoop els pot ajudar molt en moltes de les seves activitats de mineria de dades i de processament, però els managers no s'acaben de fiar de que sigui software lliure. Una mica la història de sempre, gent que està més preocupada en escalar posicions dins de l'empresa que d'estar al corrent del que passa al món real.
Però bé, tornant a l'event en sí.
Com ja he dit, no faré un resum exhaustiu de tot el que es va parlar, però algunes de les idees més interessants:
Novetats dins Hadoop:
- Facebook, Cloudera i Yahoo! estan començant a emmagatzemar Petabytes d'informació i estan creixent de forma exponencial. I en general molta gent utilitza Hadoop com a Data Warehouse.
- La majoria d'empreses que ténen els seus propis clusters utilitza màquines amb 12 discs durs (la majoria de vegades d'1 Tb), per tant, 12 Tb per màquina.
- Facebook i Yahoo! (les dues empreses ténen gent dedicada al 100% a desenvolupar Hadoop) estan invertint la majoria d'hores de commiters a millorar el DFS i el Namenode (el sistema que s'encarrega d'administrar el sistema de fitxers), bàsicament a fer-lo més estable (més encara ) i a permetre rèpliques i un possible Namenode secundari.
- Hadoop ara incorpora seguretat (de forma opcional) amb certificats Kerberos. El projecte mai havia tingut en compte la seguretat, però hi ha moltes empreses usuaries (bancs, departaments de defensa (si si, departaments de defensa), consultories ) han apretat molt perquè Hadoop fos compatible amb Kerberos i tecnologies similars.
- Facebook crearà la seva propia distribució de Hadoop.
Hadoop i Amazon AWS:
No sóc usuari dels Amazon Web Services, bàsicament perquè mai n'he tingut la necessitat, sempre he treballat en companyies que tenien les seves pròpies màquines, però en sóc un gran fan. Des de fa un temps Amazon ofereix màquines virtuals amb Hadoop instal·lat, em va sorprendre la quantitat d'empreses que ho utilitza dia a dia. Els punts més interessants:
- La imatge de Hadoop que ve instal·lada amb les màquines incorpora de sèrie Hadoop, Pig i Hive, s'està treballant per incorporar HBase.
- Permet ampliar i reduïr la mida del cluster en calent. Hi ha moltes empreses que ho utilitzen, per exemple, ténen un cluster de 4 màquines durant els dies de setmana per còrrer els seus treballs diaris i llavors per processar els treballs del cap de setmana (molt més grossos) amplien el cluster a 10 màquines, i quan els treballs estan acabats, tornen a les 4. Molt interessant, sobretot pel punt de vista econòmic.
- Empreses com Netflix ténen tota la seva infrastructura de Data Warehousing a Amazon. Així no han de mantenir el seu propi cluster i poden dedicar més esforços a altres temes.
En general però la impressió que m'estic enduent és que cada vegada hi ha més empreses (de noves tecnologies i d'altres) utilitzant Hadoop, ja sigui en les seves pròpies màquines o bé en clústers virtuals, a més, estan apareguent empreses com Cloudera, Datameer i Karmasphere que dónen suport i eines relacionades en Hadoop, un fet que prova que Hadoop està sient acceptat per la comunitat i per les empreses.
Dia 3: Twitter + Facebook.
L'últim dia vam anar a Twitter, a veure a Johan Oskarson, ex-Last.fm. Està a l'equip d'analytics desenvolupant la integració de Cassandra amb Hadoop. Ens va portar a fer un tour per les oficines i ens van convidar a dinar.
Cap a la tarda a les oficines de Facebook, al grup d'usuaris de HBase, que és la implementació de Google Bigtable que ha fet la gent de Hadoop i que Facebook utilitza bastant ( té 3 enginyers només dedicats al seu desenvolupament).
A la reunió es van presentar les novetats d'HBase per la nova versió (0.9). De nou, es podria fer tot un post sobre el que es va dir, però intentaré resumir-ho en uns pocs punts:
S'ha treballar per la estabilitat del codi (abans era bastant inestable)
- S'ha treballat en millorar la rèplica entre datacenters i la tolerància a fallades.
- La velocitat de HBase és semblant a la Cassandra. Això són paraules gruixudes ja que sempre s'havia catalogat HBase com incapaç de servir dades per una pàgina web. Es veu que ara si (jo no ho he provat).
- Facebook deixarà Cassandra (recordem que Cassandra surt de Facebook justament) per utilitzar HBase. Això també són paraules gruixudes. Molt gruixudes.
Aquí podeu trobar més enllaços sobre el summit:
- http://perspectives.mvdirona.com/2010/07/03/HadoopSummit2010.aspx
- http://mndoci.com/2010/06/30/massive-data/
- http://www.r-bloggers.com/my-experience-at-hadoop-summit-2010-hadoopsummit/
- ...
Etiquetas:
hadoop
Suscribirse a:
Entradas (Atom)