Durante la primera Junta de Accionistas de Google, celebrada en mayo de 2005, el Director General de la compañÃa aseguraba (ver diapositiva) que la información que estaba disponible en el mundo en ese momento estaba estimada en unos 5 millones de Terabytes (5.120 millones de Gigabytes), de la cual las herramientas de Google habÃan ‘procesado’ solamente “menos del 0.005%” (unos 256.000 Gigabytes). Se trata de información almacenada en diversos soportes, no solamente en HTML, como vÃdeos, audio, fotografÃas, libros, etc.
Ahora, comenta Nial Kennedy en su blog, los responsables del almacenamiento de los sistemas de Google han publicado un paper (que se puede descargar en versión PDF desde este enlace) en el cual aseguran que se están procesando 20 Petabytes de datos al dÃa (‘solamente’ 21 millones de Gigabytes).
Como se puede comprobar, parece que la capacidad de las herramientas de Google, a pesar de estar todavÃa a años luz de disponer ni siquiera de una minúscula parte de la información mundial, ha aumentado considerablemente, pasando de tener indexados 256.000 Gigabytes en total a procesar diariamente 21.000.000 Gigabytes.
El documento PDF merece la pena ser leÃdo, y en él los creadores del famoso MapReduce que permite a Google disponer de su sistema de almacenamiento nos cuentan varios detalles sobre el mismo. Por ejemplo, afirman que para construir el clúster de servidores que lo hace posible utilizan servidores construidos con hardware de piezas clónicas, con dos procesadores Intel Xeon de 2GHz de tecnologÃa ‘HyperThreading‘, 4 GB de memoria RAM, dos discos duros IDE de 160 GB y una conexión Ethernet de 1 gigabit.