观察:信息科技的新瓶颈

先看一篇瘾科技的《小姜杂谈:PB 的挑战》

[singlepic=15462]

什么是 PB?抱歉,各位苹科科的爱好者们,我说的不是 PowerBook;抱歉,各位化学爱好者们,我说的也不是铅。这里想说的是 PetaByte (也就是 1000 TB,或 1,000,000 GB)的纪元来临时的挑战。1 PB 的纪元?现在就想这个做啥?毕竟现在硬盘主流连 1TB 都还不到不是吗?从数据储存的角度来看,这样说是没错,七月号的 Wired 杂志上举了几个很生动的例子告诉我们,其实要用光 1000TB 的容量还蛮困难的:

  • 现在出去买一台玩家级的新电脑,容量大约是 1TB(或者,小姜库存的*哔*片也大约这个数)。
  • 每周上传到社交网站 Facebook 上的照片总量是 20TB。
  • 哈柏太空望远镜从发射以来产生的总数据量大约是 120TB
  • 大型强子碰撞器每周产生的数据量大约是 330TB。
  • 美国国家气候中心所以收集下来的资料总量约是 460TB。
  • Youtube 上所有的影片的总量约是 530TB(比想象中小?)。
  • Ancestry.com(一个家族追根数据库)加上内附的 1790-2000 人口普查数据大约是 600 TB。

看吧!PB 的事还是留给后代子孙去烦恼好了,看起来要一次用掉 1PB 还早呢!是啦,要变出 1PB 的数据看起来是有困难,但从数据处理的角度来说,1PB 只是 Google 服务器每 72 分钟处理的数据量而已。虽然从数据储存的角度来看,我们还处在 TB 时代,但已经有很多预兆告诉我们,下一个量级单位带来的会是完全不同的一组新挑战。小姜在后面想了五个可能:

PB 时代的第一大挑战是什么?就是数据的过滤。就算人类已经有产生 PB 级数据量的能力,但事实是我们并没有把这些数据全部有效地存取的技术。因此选择哪些数据更有价值,就成为了很重要的课题。之前就有提过的大型强子碰撞器, 事实上因为是在观测为时非常短的现象,因此每秒大约要拍下十亿张的照片,才能确保不漏掉什么重要的事情。如果全部的数据都要保留的话,每秒钟就必须储存 10PB 左右的数据 — 也就是说每秒钟会塞满 10,000 颗 1TB 容量的硬盘。这是一个靠现有技术绝对不可能办到的事情,所以必须靠硬件和软件的过滤,找出每秒大约 100 个值得关注的事。即使如此,一年仍将产生约 15PB 的数据,或 15,000 颗 1TB 的硬盘,藏在这些数据里头的,有黑洞、异次元、平行宇宙,还有两三个诺贝尔奖吧?

第二个挑战,是资料的分析。 分析和过滤不一样,过滤是试图减少数据量,但分析却是变出更多的资料来。一个例子是选举结果的预测 — 一个仔细想想并没有意义,但无论候选人、选举人还是媒体都乐此不疲的游戏。美国在 2004 年时,候选人 Howard Dean 收集了 100GB 的资料来分析,当时被认为是一个很恐怖的大数据库。今年的总统选举,Catalist 公司收集了一个 15TB 的超大数据库,详细分析每个人的性别、婚姻、年龄、种族、收入等各种资料,并且从中获得判断一个人会投给共和党还是民主党的重要信息。依照同样的比例增加 下去,下一次美国总统选举时的资料量和分析结果肯定会达到数 PB 之谱,届时对数据探勘、分析所需的运算资源的要求会非常可怕,或许非要用 Cloud Computing 的方式才能运算的地步。嘿嘿,或许到时候预测系统都比你自已清楚你会投给谁…

第三个挑战,是数据的呈现。 这是一个比较抽象的关念,举个例子来说好了,目前的数码相机分辨率都高达 10mp 或更多,但一般人用的屏幕就算是最常见的高档屏幕分辨率(1920×1200)事实上才 2.3mp 而已。那多的那些资料不就可惜了?Wikipedia 现在就有点这种感觉,很多很好的文章和内容因为不容易取得,很难发挥它应有的真正价值。

第四个挑战,是数据的传输。 之前在网络上看过一个很有趣的问题:将 1PB 的资料从美国西岸送到中国,是用传输的快,还是用帆船把整个服务器运过去快?一点简单的数学告诉我们,要在合理的时间范围内把数据传完…就假设三个月 好了。要在三个月内把 1PB 的数据传完,传输送率要大约 1Gb/s 才行。这个数字不是特别的不可能(学术单位间常常有这么大量数据来往),但绝对不是一般民众能负担得起的。以目前的技术来说,如果你要传 1PB 的超高画质*哔*片给在美国的朋友的话,绝对是用海运的比较快…

最后,第五个挑战,是数据的搜寻。 拜 Google 大神所赐,这或许是我们最不须要要担心的一环了。但 Google 的强大也仅限于公开的网络而已,自已电脑上的档案要能分类清楚依然是很困难的一件事。Windows Vista 本来想要加入的 WinFS 档案系统和随之而来的关连式档案架构似乎带来了一线曙光,但最后我们还是被卡在树状结构的 NTFS 里。当个人电脑数据量也到 1PB 的时候,嗯,真难想象到时候会是个怎么样的恶梦。

个人电脑容量跨越 1GB 门坎是多久以前?好像差不多是十年前左右,所以如果发展方向不变的话,再十年我们就会进入全面 PB 的时代。但在那之前,就们就已经有够多要担心的事了:在上面的五个问题当中,小姜最担心的是数据的传输,因为传输频宽的建立要时间和金钱的投入。要能够顺 利地提升到下一个阶段,现在就要开始做准备啰!

信息技术或者说计算机技术在发展过程当中遇到了若干个瓶颈,我之前在《SMP in Linux》一文中提到过这些瓶颈以及解决方法。现在看起来,CPU多核和众核已经成了趋势,在Intel的驱动下普及应该不会有太大问题,硬盘也开始以难以置信的速度迅速扩张,希捷一年出货硬盘1.83亿块, 每秒钟近6块。看起来,网络速度已经成最近相当一段时间内的最大瓶颈。正如小姜提到的,1PB的资料从美国西岸送到中国,是用传输的快,还是用帆船把整个服务器运过去快?这个问题现实中我真的是天天面对着。
我的DreamHost硬盘很大很大,2TB大,而传输速度实在不敢恭维,在中国,我需要先把数据传到一个骨干网服务器上,然后挂着传到美国的服务器。即便这样,一个月我也只传了几十GB数据而已。
纵然技术迅速发展,无良的ISP依然收着难以置信的价格,甚至奥运村也不放过。与美国日本韩国相比,我们的宽带速度甚至连人家小灵通上网速度都不如。
我有一个梦想,睡在凉爽的骨干机房里,享用着100MB直接连接到骨干网的网速,该有多爽~

发表评论