POE: GOOGLE.

Siempre que hemos querido buscar algún tipo de información en Internet, hemos escrito la palabra Google en nuestro navegador, apto seguido y en poco segundos nos ha aparecido una página en blanco con seis letras de colores y un campo de texto para que escribamos cualquier palabra o frase que se nos pase por la cabeza.

Google fue fundado en 1998 por dos estudiantes de doctorado de Stanford, los nombres de los creadores del buscador más famoso del mundo son Larry Page y Sergey Brin.

Larry pensaba que Sergey era un arrogante y Sergey pensaba que Larry era odioso. Esta fue la primera impresión que tuvieron sin conocerse los dos fundadores de Google, allá por el verano de 1995. Sergey ya estudiaba en Stanford y se había mostrado voluntario para enseñar las instalaciones a los nuevos candidatos, entre ellos estaba Larry. Éste finalmente comenzó en septiembre, y pronto se aficionó a estudiar la estructura de la WWW, en su imaginación veía una red de servidores enlazados entre si, su obsesión era sumergirse en el corazón de la red.

A Page le obsesionaba la idea de que, en aquellos años, fuera imposible saber que páginas Web enlazaban a otras, ya que esto impedía el análisis de la WWW y poder determinar la importancia de la página Web. El decía que la importancia de una Web se veía en el número de veces que enlazan o citan un documento. Por ejemplo yo pienso en una clase de 200 alumnos, tu presentas una redacción de un tema que has escrito, la importancia se vería en el número de veces que comentan tu relato en los siguientes días. Si todo el mundo habla de lo que has escrito es porque es un documento importante, al contrario, si no se hablase de ese tema, es porque realmente no interesa mucho, quedando en un vacío.

Por lo tanto, con esta idea en la mente de Page, decidió comenzar un proyecto al que llamó “BackRub”, con el objetivo de determinar el número de enlaces hacia las páginas web (backlinks). Incluso esta herramienta estuvo on-line, y a día de hoy se guarda una copia en “archive.org”.

Para determinar los enlaces entre páginas, construyó un robot que rastreaba los diferentes sitios Web, y almacenaba los links en una Base de Datos. Se ayudo de Java y Python para desarrollar la aplicación, en incluso posteaba en foros para intentar solucionar las diferentes dudas que le surgían. Que importante es tener una buena idea, y Page la tuvo en el mejor momento de la WWW.

En marzo de 1996, Page decidió poner en marcha el rastreo de la WWW a través de BlackRub. Como punto de partida tomo como referencia la Web oficial de la Universidad de Stanford, y a partir de esta saltaría de página en página a través del los enlaces a lo largo y ancho de la Word Wide Web.

Poco a poco el proyecto de Page se fue complicando cada vez más y esto fue lo que atrajo la atención de Sergey Brin, el cual todavía no se había decantado por ningún proyecto de tesis doctoral. El robot llamado BackRub había conseguido determinar cuantos enlaces había entre las páginas, pero el reto estaba en saber algo más importante, en conseguir crear un algoritmo para clasificar la importancia de cada una de las páginas. Como dijimos anteriormente, Page estaba totalmente obsesionado con la idea y lo quería establecer en función del número de citas/enlaces. Pero también se debía tener en cuenta que cada uno de estos links tenía su propia importancia, determinada a partir del número de enlaces hacia la página que enlazaba, lo que significaba un elevado número de cálculos recursivos.

En este punto de abstracciones y operaciones matemáticas, entró Sergey Brin, con una eficaz soltura para resolver este tipo de cálculos. Se hablaba que era un prodigio en esta materia y la persona mas indicada para ayudar a Page a desarrollar el algoritmo de PageRank. Este nombre se puso en honor a Larry y ha sido descrito en varias ocasiones por sus autores. Es el siguiente:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Las variables son:
• PR(A) Es el PageRank de la página A,
• PR(Ti) Es el PageRank de las páginas Ti que enlazan a A,
• C(Ti) Es el número de links salientes de la página Ti
• d es un factor variable que puede estar entre 0 y 1.

De forma breve, lo que podemos ver a simple vista es que el PageRank no se aplica a un sitio Web en su totalidad, sino a sus páginas individualmente. El PageRank de las páginas Ti que enlazan a la página A no afecta al PageRank de la página A uniformemente. Dentro del algoritmo del PageRank, el PageRank de una página T se calcula por el número de links salientes C (T) en la página T. Esto significa que cuantos más enlaces salientes tenga la página T, menos beneficiará el enlace de la página A al enlazar a la página T.

Poco a poco los fundadores de Google se empezaron a dar cuenta que BlackRub a parte de determinar la importancia de una página Web, también servía para realizar búsquedas en la WWW, y lo hacía mucho mejor que los actuales buscadores de la época, tan populares como Altavista o Excite. Las primeras pruebas que hicieron eran buscar palabras sueltas en los títulos de las páginas web. PageRank ofreció resultados sorprendentes y pronto comprobaron que estaban ante algo grande.

También con el tiempo se dieron cuenta que su algoritmo era totalmente escalable, es decir que cuanto mas grande fuera la WWW, mejores resultados obtendrían, puesto que PageRank analizaba los links entre páginas web. Esto último inspiro a Sergey y a Larry a bautizar definitivamente el buscador con el nombre de Google, y os preguntareis porque lo llamaron así. Según cuentan ellos mismos, se debe a un juego de palabras originando la palabra Googol, término que se utiliza para describir una cantidad numérica, 10 elevado a 100, es decir 1 seguido de 100 ceros. Como curiosidad la cifra de un gúgol es tan grande, que es mayor que el número de todos los átomos del Universo conocido, unos 10 elevado a la 87. Con estos datos podemos deducir que se llamo así por que el número de páginas indexadas crecía rápidamente. En Agosto de 1996 lanzaron la primera versión de Google, bajo el dominio “google.stanford.edu”.

Puesta en marcha la iniciativa, pronto vieron como para algunos alumnos de Stanford, Google se convirtió en todo un éxito, lo que ánimo a Page y Larry a continuar dedicándose al proyecto con más ganas y a esforzarse para conseguir mejores resultados, y lo hicieron, lograron que el buscador indexase un mayor número de páginas Web, y que además buscase información dentro del texto de estas (no solo en el título). Igualmente comprobaron que su buscador consumía muchos recursos, lo que los obligó a tomar prestados de los laboratorios de la Universidad de Stanford numerosos dispositivos como discos duros, CPU´s… uniéndolos con técnicas tan inusuales como piezas de Lego.

El tiempo pasaba, y la habitación de Larry Page se convirtió en la sala de servidores, y cuando esta se lleno de aparatos informáticos, tuvieron que utilizar la casa de Sergey como oficina y centro de programación. El pequeño Google crecía rápidamente, consumía la mitad del ancho de banda de la Universidad de Stanford (una de las mejores conectadas del planeta), y a finales de 1996 consiguió tirar la conexión de Internet del campus.

En 1997 Larry y Sergey registraron el dominio “google.com”, y un año después deciden crear su propia empresa. Sus oficinas eran las habitaciones de los fundadores y Google seguía indexando páginas rápidamente y esto requería la necesidad de más discos duros, consiguieron un terabyte por 15000 dólares.

En aquella época los .com estaban en lo más alto, pero aún así, no encontraban inversores para financiar Google. Larry y Sergey conseguían el dinero de sus familiares y amigos íntimos. Abandonaron su Doctorado en Stanford.

Ya en el verano de 1998, en la casa de un amigo en común (un profesor de la Universidad de Stanford), conocieron a Andy Bechtolsheim (cofundador de Sun Microsystems y vicepresidente de Cisco Systems), y hablaron sobre Google. Pasaron 30 minutos y Andy les firmó un cheque de 100000 dólares (más tarde les firmaría otro con la misma cantidad). El cofundador de Sun quería ser parte de la compañía y ayudar a los chicos para que comprasen nuevos servidores y poder probar su nuevo concepto. Otra parte del dinero la destinaron a abogados con el fin de recibir consejos en temas legales.

Google Inc. consiguió ganar unos miles de dólares más, y pronto trasladaron la empresa a un garaje, en California, que alquilaron a un buen amigo. Rápidamente instalan varias líneas telefónicas, un mode, una DSL y una plaza de aparcamiento para su único empleado, Craig Silverstein (actualmente Director de Tecnología de Google). Llegaron a 25 millones de páginas indexadas y Google recibía 10000 consultas por día. La revista PC-Magazine lo incluyó dentro de su “Top 100 Web Sites” en 1998.

Solamente un año después, la plantilla ascendió a 8 personas, con 500000 visitas diarias, se trasladaron a las nuevas oficinas de Palo Alto, firmando su primer contrato comercial con RedHat, el cual empieza a suministrar el Sistema Operativo Linux a los servidores de Google, una opción muy inteligente. Su campaña comercial, era el boca a boca, no invertían en publicidad.

En la actualidad se dice que Google es el sitio mas deseado para trabajar. Su sede esta en Zurich (Suiza), y es una empresa líder de la economía mundial de nuevas tecnologías. Un lugar que hace del trabajo un placer, zonas de ocio, cantinas con comida gratis y muy saludable, mesas de billar y ping pong, una estructura pensada para moverte a cualquier sitio y trabajar tranquilamente mediante tu portátil, con un sinfín de espacios multifuncionales, e incluso lugares destinados para el descanso, con cómodos sillones donde puedes hasta soñar. ¿Pero tan fácil es entrar en el cielo?
La empresa Google quiere tener entre sus profesionales a los mejores talentos informáticos y de marketing. Para ello compiten contra otros que ofrecen delicias similares, como Microsoft, Apple etc… donde el candidato de calidad busca algo más que un buen salario. Estos paraísos atraen como mosquitos a los mejores, sin que la empresa tenga que invertir dinero en caza talentos para buscarlos. Simplemente con el boca a boca lo tienen todo. Pero entrar en Google no es tan fácil. Primeramente tienes que ser uno de los mejores de tu clase, te examinarán tus notas con lupa, desde casi tus estudios primarios. Si esto logras pasarlo y eres el mejor en tu profesión, lo siguiente es hacerte un chequeo exhaustivo de tu curriculum, que incluye hablar con antiguos superiores para ver si te avalan, mientras investigan tus logros si has tenido algún impacto mediático general o especializado. Si todo esta correcto y todavía te valoran, te harán hasta 5 entrevistas, incluyendo una vía video conferencia con Londres. En fin, solo lo mejor de lo mejor llegará a hablar con el “San Pedro de Google”.

Como anécdota, una de las preguntas que te hacen en la entrevista filtrada hace un tiempo, para comprobar tu capacidad de resolución es la siguiente: "Le han reducido al tamaño de una moneda de cinco centavos y le han arrojado una batidora. Su masa corporal se reduce proporcionalmente a su densidad. Y las palas de la batidora empiezan a moverse en 60 segundos. ¿Qué haría usted?”. Google también ha pedido a los entrevistados que "diseñen un plan de evacuación para San Francisco" o que "usen el lenguaje de programación para describir a un pollo". En otros casos, la compañía ha pedido respuestas más poéticas como que los usuarios expliquen "la ecuación más bella que jamás hayan visto".

Muchas veces os habréis preguntado porque las búsquedas de Google son tan rápidas, muchos ya lo sabréis, pero yo voy a intentar ir más allá de lo que se conoce comúnmente. La idea principal que debemos saber es que cuando pulsamos el botón buscar en la página de Google, se ejecuta un programa que muestra lo que ya tiene indexado. La indexación es un proceso muy complejo por el cual Google analiza la página y la ordena en el índice según su importancia respecto a la palabra clave. Para ello realiza varios pasos como la eliminación de “stopwords“, palabras que no indexa como “el, la de, los, en” etcétera. Además, utiliza un algoritmo léxico por el cual es capaz de analizar e indexar palabras con sufijos, prefijos, tiempos verbales, sinónimos, etcétera.
Pero la magia de Google se encuentra cuando se ejecuta el Query Processor, ¿y como funciona?, por ejemplo, tu buscas “perros corren”, lo primero que hace el proceso es pedirle al índice todas las páginas que ha rastreado y que contienen la cadena “perros corren”, con esto elimina millones de páginas que no lo contienen, aquí Google no esta buscando en Internet, lo hace en su índice que esta constantemente actualizado por el Spider (GoogleBot). Una vez tienen todas las páginas que contienen esas palabras claves, toca Rankear, y para ello Google usa dos herramientas, el PageRank y el Algoritmo.
¿Y que es el famoso algoritmo de Google?, es la fórmula por la que Google analiza en los resultados que obtienen el índice si las palabras “perro” y “corre” aparecen en la URL, si aparecen juntas, si están en el título, se están destacadas en negrita, si son el texto de un enlace, si existen sinónimos de las mismas, si aparecen en la descripción de las imágenes, así hasta 200 preguntas, que en definitiva son la clave del algoritmo. Este es como la fórmula de la Coca-cola, apenas lo conocen una docena de personas, y los ingenieros trabajan en una parte pero nunca ven el código fuente al completo. El algoritmo de Google cambia unas 300 veces al años, casi todas ella para evolucionar en el detalle de la búsqueda.

Fijaros hasta que punto llega la organización de la empresa, que recompensa a los hackers que encuentren vulnerabilidades que permitan la ejecución de código en los sistemas de producción de Google, llegan a pagar hasta 20000 dólares. Para que luego digan que el teletrabajo esta mal pagado.

Por mi parte esta todo dicho, no encuentro nada negativo en Google.

POE

jueves, 3 de mayo de 2012

GOOGLE.

1 comentarios:

Publicar un comentario

Blog Archive

Páginas

About Me

Mi lista de blogs