《In The Plex》Google 内部趣闻挖掘(四)

继续由我为大家筛选出Steven Levy讲述Google公司内幕的《In The Plex》一书里有趣的故事和内幕(第一篇第二篇第三篇见此):

  • Andy Bechtolsheim对Google印象深刻,于是当场给哥俩撕了一张10万美元的支票。Brin说“我们还没有银行帐户呢”,“建好了就去存上。”Bechtolsheim说。后来哥俩去了汉堡王吃早饭庆祝这第一笔钱,而那张支票在Page的宿舍里放了好几个月。
  • 1998年9月4日,哥俩成立了公司,最终搬出了斯坦福校园。Sergey女友Anne Wojcicki的姐姐Susan Wojcicki跟她老公在Menlo Park的Margarita大街花61万5千美元买了栋房子,为了还按揭,于是以1700美元/月的价格将车库和几间房租给了哥俩。
  • 当时的Google需要新的人才,因为以Brin和Page的能力已经无法继续改进软件了,况且编代码也不是哥俩的兴趣之所在
  • 他们那时雇佣的都是跟他们差不多的人,Marissa Mayer(我们敬爱的梅姐)就是早期雇员之一
  • 早期的Google搜索一次要花3秒半才会给出结果,但怎么优化也只能这样了,部分原因在于哥俩自己写的“大学生业余代码”太烂了,特别是Python压根就无法在一秒里响应10次查询。当初用Python是很适合研究的,但它不是一个高性能的解决方案
  • 另外一个提高搜索速度的技术是in-RAM系统,就是让更多的索引数据都放到电脑内存里完成
  • 2000年初Google遇到了前所未有的危机──保存在Google服务器上的抓取来的内容无法被索引,在那个时期抓取来的内容都无法被搜索到。这是抓取和索引过程中存在的一个内部bug,当抓取完毕后,索引的机器不知道抓取完毕的那个点,所以无法索引到那些新抓取的内容。早期也存在这个问题,但不是什么大事,因为抓取量不大,可以人肉找到那个点告诉索引的机器,但到了1999年末Google有8台机器在全速抓取内容。后来Google工程师做了个计划任务,一旦抓取的机器出现问题,所有机器就都开始响,即便是在半夜他们也必须冲到办公室停止机器继续抓取,手工修改配置文件。这种情况大概每隔几天就会发生一次,最后Google下决心重写了整个程序,彻底解决了问题,也就是Google File System
  • Google File System花了很久开发,但使得Google的速度大幅提升,这也成为了Google为Yahoo提供搜索服务的基础。2000年6月26日,Google和Yahoo签订搜索合作协议,其中Yahoo要求Google至少一个月更新一次索引库(就是说你至少可以搜索的到一个月前的新闻)
  • Yahoo搜索团队的头儿Udi Manber抱怨说Yahoo有成千的员工,但搜索部门只有6个人,我想要第7个人都没门儿!
  • Google一个月更新一次的索引库直到2003年夏天才升级到一天一更新,该次升级的代号为BART(旧金山湾区地铁的缩写),因为旧金山的地铁很快,且非常准时。
  • Yahoo部署上Google搜索后,用户的反应很奇妙,他们的搜索量居然比以前增加了50%。但是来自Yahoo高层却抱怨说用户搜索的太多了,Yahoo不得不支付给Google更多的钱(看来他们是按照搜索量付费的)
  • 一名叫做Amit Patel的工程师进入Google的第一个工作是去分析看看都是谁在用Google,他们都在用Google干什么。他首先意识到了Google搜索历史记录的价值,他还负责Google Zeitgeist年度最流行搜索词汇的统计。
  • 最初Google服务器不够用的时候,就格掉那些存储用户历史记录的机器来用。于是Patel需要抢先在被格机之前将数据导出来