关于搜索引擎
上一篇 / 下一篇 2006-11-04 15:30:44 / 个人分类:IMF
Contents
Introduction
Setup
Overall results
Yahoo! Slurp
Googlebot
MSNbot
Spam bots
Introduction
关于搜索引擎的大规模试验在持续了一年之后于2006-4-13结束。该试验的目的是分析搜索引擎行为模式,共使用了基于二叉查找树结构- Binary Search Tree 2 -而组织的20亿页面。在一年的时间内,三个主要搜索引擎向超过十万个不同的URL提交了超过一百万次页面请求。由于显示在页面上的访问记录和留言的增长,drunkmenworkhere.org的主页也从最初的1.6kB增长到了4MB。
本文即为这次试验的结果。
^
Setup
这次试验共准备了2,147,483,647个页面,这些页面(结点)以二叉查找树的结构组织在一起。对于某一特定结点来说,它自身的值大于其左子树上任意一结点的值,而小于右子树上任意一结点的值。在这次试验中,最左叶结点的值为1,而最右叶结点的值为2,147,483,647。
二叉树的深度是指从根结点访问到最远的叶结点所经历的结点数量。如果二叉树的深度是n,那在这棵二叉树上最多能排列2n+1个结点。在本次试验中,二叉树的深度定为30(231= 2,147,483,648),所以根结点的值为1073741824(230)。在持续一年的时间里(从2005-4-13到2006-4-13),我们跟踪了三大搜索机器人(Yahoo!Slurp、Googlebot和msnbot)在每个页面上的访问量。
为了让搜索引擎对页面内容更感兴趣,每个结点的值都用short scale(短级差制英语表示,billion=“十亿”,译者注)表示,每一次搜索机器人对于任意结点的访问记录都会按时间排序显示在该结点的页面上。每个页面上添加了一个留言板(已于被2006-4-13被移除)。上一版二叉查找树结构- Binary Search Tree - 因为使用了长URL而造成不便,现在这些措施都是对其的进一步改进。
每个结点上首先显示了三张访问树图。这是被搜索引擎抓取的结点的图形化表示。图中的每条线代表一个结点,线的长度代表搜索机器人的访问次数。下文中所使用的图片是访问树全图的修改版,除去了拥有最大访问量的根结点,但没有连接到根结点的树枝仍会被表示。
^
Overall results
到目前为止,Yahoo! Slurp是最活跃的搜索机器人。在一年时间里总共请求了超过一百万次页面,抓取了超过十万个不同的结点。这是一个很大的数字,但也只占了总结点数的0.0049%。所有机器人的统计数据如下:
overall statistics by search engine Yahoo!
Google
MSN
total number of pageviews
(页面总请求数) 1,030,396 20,633 4,699
number of nodes crawled
(抓取结点数) 105,971 7,556 1,390
percentage of tree crawled
(抓取率) 0.0049% 0.00035% 0.000065%
number of indexed nodes
(索引结点数) 120,000 554 1
indexed/crawled ratio
(索引/抓取比) 113.23% 7.33% 0.07%
页面总请求数和抓取结点总数在一年内的增长趋势如图1和图2所示。在随后几节中将具体分析搜索机器人抓取结点的方式(配有动画演示)。
Fig. 1 - The cumulative number of pageviews by the search bots in time.
Fig. 2 - The cumulative number of nodes crawled by the search bots in time.
图3中显示了二叉树中的不同层结点被抓取的数据统计(注:纵轴为对数表示)。根结点在level 0,最远叶结点(如结点1)在level 30。二叉树的结构决定了在第n层有2n个结点,所以从理论上说,搜索机器人抓取整个二叉树的行为会在图中表示为一条单调上升的直线。
Fig. 3 - The number of nodes crawled after 1 year, grouped by node level.
Googlebot的抓取模式基本上接近于这条直线,直到在第12级发生转折。它所抓取的大多数结点在第12层或12层以下(8191中的5524个),少有深层的结点被抓取。MSNbot的行为模式与Googlebot类似但拐点出现得更早,在第9级(1023中的656个)。Yahoo没有发生明显的转折,不过在深层抓取新结点的行为逐渐放缓。
与其他搜索机器人相比,Yahoo更频繁地向其所抓取的深层结点发送请求:在14层到30层的结点平均请求次数为10次。(见图4)
Fig. 4 - The average number of pageviews per node after 1 year, grouped by node level.
^
Yahoo! Slurp
large version (4273×3090, 1.5MB)
animated version over 1 year (2005-04-13 - 2006-04-13, 13MB)
animated version of the first 2 hours (2006-04-14 00:40:00-02:40:00, 2.2MB)
Fig. 5 - The Yahoo! Slurp tree.
Yahoo! Slurp是第一个发现Binary Search Tree 2的引擎。在其后的几个小时里Yahoo! Slurp每秒2.3个结点(见动画演示(2 hours ))的速度精力旺盛地抓取着每一个结点。到第一天结束它已经抓取了大约30,000个结点。
在接下来的一个月里Slurp表现得没有第一天那么活跃,但一个月以后它重新请求了它先前访问的每一页。在动画演示中可以看到:访问树在2005-05-14增长了一倍。这一现象在一个月后再次重复:在2005-06-13访问树增长到原来规模的三倍。Yahoo! Slurp在请求数已经达到90,000时抓取的结点数仍然维持在30,000。图6显示了在最初几个月里请求数的阶梯式增长。
Fig. 6 - The cumulative number of pageviews by Yahoo! Slurp in time.
4个月后,Slurp重复了其第一回合的行为,请求了大量的“新”结点。它请求了所有访问过的结点。因为已经建立了30000个结点的索引而每一个结点都链接到更深一层的两个子结点,在8月底它请求了60000个页面(请求数由100,000跳到160,000,见图6),同时抓取页面总数也翻了一番。(见图7)
5个月后Yahoo! Slurp开始显得更有规律发送请求,从图7中上仍然可以看到新的“发现期”(例:10个月以后)。
Fig. 7 - The cumulative number of nodes crawled by Yahoo! Slurp in time.
Yahoo在索引中报告了120,000个页面(current value)。考虑到它只访问了105,971 个结点,这看起来有点不可思议,但实际上每个结点都有两个域名:www.drunkmenworkhere.org和drunkmenworkhere.org
Note: 从返回的查询结果上看,Google和MSN与Yahoo的35,600条记录相比明显落于下风。截止到试验结束为止,Yahoo是唯一一个对上述查询返回结果的搜索引擎。
^
Googlebot
large version (4067×4815, 180kB)
animated version (2005-04-13 - 2006-04-13, 1.2MB)
Fig. 8 - The Googlebot tree.
与Yahoo的访问树相比,Google的访问树更像一棵真实的树。Google访问深层结点并不如它们的父结点那么频繁。Yahoo访问最频繁的结点集中在前三层,Google则集中在前12层(见图4)。
Google访问树的形状取决于PageRank算法,该算法的具体定义如下:
“We assume page A has pages T1…Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)) “
二叉树上的绝大多数结点都没有外部链接,所以各结点的PR值计算式可简化为如下形式(忽略留言上的链接):
PR(node) = 0.15 + 0.85 (PR(parent) + PR(left child) + PR(right child))/3
唯一不确定的地方是在迭代计算各结点PR值时我们无法确定根结点的PR值。考虑到根结点作为drunkmenworkhere.org的主页已经有了一年时间,可以假定它拥有一个高PR值。PageRank树的特征与Googlebot访问树很相似,可以认为Googlebot访问某一页面的频率与这一页面的PR值直接相关。
Fig. 9 - A binary tree of depth 17 visualising calculated PageRank as length of each line, when the PageRank of the root node is set to 100.
Googlebot访问树的动画显示了某些不能用PageRank的有趣特征。
最远右子树
一开始Googlebot更多地抓取了二叉树右支上的结点。在2005-07-04它试图到达拥有最高值的最右结点。从根结点出发,Googlebot在右子树深度为20的地方停了下来。访问树的右段形成了一段圆弧。
搜索结点1
在2005-06-30,Googlebot访问了 结点1——这是二叉树的最左叶结点。Googlebot并没有从根结点沿着左子树一路爬上来,它究竟是如何发现这一结点的呢?是Googlebot猜到了URL还是从某个外部链接跟踪过来?
几个小时后,Googlebot抓到了结点2——结点1的父结点。这两个游离于主干之外的结点在动画演示的2005-06-30显示为一个小黑点。一周后的2005-07-06 (也就是到达访问树最远右结点的两天后),Googlebot找到了从根结点访问结点1的路径,在20秒之内串联了24个结点(从06:39:39到06:39:59)。这次大串联行动从根结点开始,直到连接到结点2,其间没有一次请求右子结点。在Googlebot访问树的全景图中很容易找到这条访问路径。中途的大部分结点没有第二次被访问过,在访问树上它们被表示短而细的线段,整体的显示效果为一段极其陡峭的圆弧。
类Yahoo子树
在2005-07-23,Google突然间花费几个小时在结点1073872896周边抓取了600个新结点。其中绝大多数没有被再次访问。
这棵类Yahoo子树正是图3中Googlebot在18层到30层抓取的结点数重新上升的原因。
在后六个月里Googlebot一直以一个稳定的速度发送着页面请求(平均每月260个页面,见图11)。与Yahoo! Slurp类似,Googlebot的行为模式也可以分为发现期(periods of discovery)和刷新期(periods of refreshing its cache)。
Fig. 10 - The cumulative number of pageviews by Googlebot in time.
Fig. 11 - The cumulative number of nodes crawled by Googlebot in time.
Google收录了它所抓取结点中的554个结点。最早收录的结点是结点1和结点2。它们最早收录是因为它们的短URL。而Google第一页的搜索结果的其他结点都位于第4层,这可能是因为前三层结点因为垃圾留言过多而被Google 过滤了。
查看当前的搜索结果请点这里。
^
MSNbot
large version (4200×2795, 123kB)
animated version (2005-04-13 - 2006-04-13, 846kB)
Fig. 12 - The msnbot tree
Msnbot的访问树与Yahoo和Google相比显得更小,比较有趣的是在访问树的右边有一个大的断支。这个断支发生于2005-04-29,msnbot访问了结点2045877824。这个结点上有一句两周前的留言:
I hereby claim this name in the name of…well, mine. Paul Pigg.
一周后msnbot请求了这个结点,Googlebot也请求了这个结点。这个看似无奇的24层结点被抓取是因为Paul Pigg的网站masterpigg.com (该站点现在已不存在了, Google cache)为它作了超链接。所有这三个搜索引擎都是通过这个链接访问到这个结点,谁也没能把它同访问树的根结点连接上。
查看结点2045877824的留言也能确认这一点。
从这个孤立的结点的上下两个方向抓取其他结点,从而形成了一颗大的子树。这颗子树造成了msnbot在图3中18层到30层向上趋势。
第二颗较大的子树位于顶部中央,是由uu-dot.com的一个超链接引起的。这两个独立子树在Googlebot的访问树中同样看得很清楚。
Fig. 13 - The cumulative number of pageviews by msnbot in time.
Fig. 14 - The cumulative number of nodes crawled by msnbot in time.
如图所示,msnbot在5个月后实际上终止了抓取Binary Search Tree 2的行动。MSN Search如何反馈搜索结果在上图中看得不是很清楚。
^
Spam bots
一年之中103个结点上留下了5265条留言。其中有32个结点没有被任何搜索机器人访问过。大多数留言(3652)都留在根结点(主页)上。留言中的最常见的单词统计如下:
top 50 of most frequently spammed words count word
1 32743 http
2 23264 com
3 12375 url
4 8636 www
5 5541 info
6 4631 viagra
7 4570 online
8 4533 phentermine
9 4512 buy
10 4469 html
11 3531 org
12 3346 blogstudio
13 3194 drunkmenworkhere
14 2801 free
15 2772 cialis
16 2371 to
17 2241 u
18 2169 generic
19 2054 cheap
20 1921 ringtones
21 1914 view
22 1835 a
23 1818 net
24 1756 the
25 1658 buddy4u
26 1633 of
27 1633 lelefa
28 1580 xanax
29 1572 blogspot
30 1570 tramadol
31 1488 mp3sa
32 1390 insurance
33 1379 poker
34 1310 cgi
35 1232 sex
36 1198 teen
37 1193 in
38 1158 content
39 1105 aol
40 1099 mime
41 1095 and
42 1081 home
43 1034 us
44 1022 valium
45 1020 josm
46 1012 order
47 992 is
48 948 de
49 908 ringtone
50 907 i
complete list (360 kB)
从top50可以看出,很多留言都与制药业有关。下面饼图就是各种药物的比例。
Fig. 15 - The share of various medicines in comment spam.
留言中提交的域名,所有的顶级域名见图16(按频度排序)
Fig. 16 - Number of spammed domains by top level domain
Spam bots发送的许多邮件都指向一个不存在的地址——@drunkmenworkhere.org,从一个侧面也反映出这个域名在“Spam bots最流行域名榜”(the chart of most frequently spammed domains)上的高排名。(见图17)
Fig. 17 - Most frequently spammed domains
(全文完)
^
1 comment May 16th, 2006 mimiqiao
第二代亚裔美国人的成长阵痛与觉醒
文中参加采访人物简介:
Grace Change Lucarelli 33岁,台湾裔美籍,来自得克萨斯州Terell
Lucarelli希望她和丈夫Joe(白种人)刚出生的女儿能接受同时东西方文化
Rob Rasaga 32岁,菲律宾裔美籍,来自新泽西州Englewood Cliffs
成长时期缺少亚裔美籍人榜样的Rob现在在新泽西一所高校当老师,他说他可以成为孩子们的榜样,为此他觉得很骄傲
Mona Rahman 25岁,孟加拉裔美籍,来自弗吉尼亚州Blacksburg
Rahman和她的父母对“美国”的风俗习惯比如对班级舞会的看法不同
Nidhi Khurana 25岁,印度裔美籍,来自纽约州Poughkeesle
少年时,她发现没有医生能够理解她的双文化现象,后来,她选择临床心理学作为自己的事业
Suzette Won Hass 32岁,韩裔美籍,来自加利福尼亚州的Rancho Palo Verdes
Hass说她还是孩子的时候,她希望成为一名白人,那时她觉得说韩语是一件很尴尬的事,但现在她后悔自己没有学好韩语
Mohip Joarder 28岁,印度裔美籍,来自纽约州Spring Valley
Mohip是一名计算机程序设计师,东西方文化兼收,热爱印度舞蹈。他是Parul Shah and Dancers舞蹈团的成员。这个舞蹈团表演具有现代风格的传统北印度舞。 (more…)
1 comment May 16th, 2006 mimiqiao
另眼看中国(3)
原文地址 A Different View of China - Part 3
我的朋友跟他的妻子和11岁的女儿在中国待了一个月,下面是他发回的在中国的最后一封邮件。
在中国待了一个月,我们要离开了,去罗马,然后是LA,或者到巴黎看看朋友。
在我们在中国看到许多大开眼界的地方后,所有的城市中,我们觉得上海最吸引人。表面上它是一个国际化大都市,就像所有的西方大城市一样-目及之处都是摩天大楼,还有可以令所有女孩开心的商店。就因为它是那么现代,充满生机,有很多西方人构成的多样性的社会群体,令它感觉起来不像其他的中国城市。
我们游览了7个主要的中国城市(五百万人以上的),还有一些小一些的城市。除了在上海北京之外,人们经常注视我们并且会对我们微笑,特别是对我的女儿,对于很多中国人来说,我女儿是他们见过的第一个金发碧眼的西方人。在大多数地方我们都受到了热烈的欢迎,他们努力使我们的游览愉快,这一点跟我们刚开始在北京感受到的不同。
三峡工程是那么的惊人,我们坐着游轮沿着长江穿过三峡大坝,这种经历非常难忘。很难想象在美国会有这样的工程,我不记得在我的有生之年中有任何公共工程有这般的规模。我记得这样一些基本的统计数字:花费16年建造,耗费250亿美元,因为河水高度的改变要搬迁113万居民,99座新建桥梁,产生几乎十倍于美国最大水坝的能量。当你看到奇妙如上海的城市,感受到壮观如三峡工程的项目时,你就会开始明白为什么这么多的人会相信中国的经济会超过美国。
两极分化仍然到处令人触目惊心。很多商人都很年轻,而且很多很有钱,但是所有的街道清洁工都是又老又穷。我们在路边一个小摊吃过一顿好吃量又足的饭,花了30美分(十个水饺,三块面包),他们仍然有钱赚,就在离喜来登酒店大门三十米的地方,而我们一家三口要是在酒店里吃一顿的话要花60美元。看起来干什么都需要多出来五倍的人手,随便走进一家卖便宜衬衣的小商店都会发现6个人工作在250平方米的空间里。很多时候我们问自己“他们雇佣这么多人手怎么还能赚钱?”我们接触的大部分精英群体都是35岁以下的,很明显,老一代人没有像20到30岁的年轻人那样有那么多接受教育的机会。还有跟我们聊过的所有中国人都毫无疑问的相信生活肯定会越来越好。
受过良好教育的中国人都会毫无顾忌的跟你说起政府可能没有真正实现市场经济,贫富差距过大可能导致内乱,污染,城市过于拥挤,通货膨胀等问题,我只列举了一些,这些都是中国将面临的挑战。
简而言之,这是一次很棒的旅行,对于旅行来说中国看上去比我想象的要容易的多,但是我不知道如果不是中国人的话怎么在这里赚钱,在这一点意义上来说,作为一个像我一样的创业者想在中国赚钱的计划现在没有了。
2 comments May 14th, 2006 janette
另眼看中国(2)
原文地址 A Different View of China - Part 2
其实中国并不是这么糟糕,只是相对于很多其他更好的观光地点来说要差些。
我喜欢吃中国菜,可是每家餐馆都是中国饭,服务也不是很好,其他口味风格的餐馆很少。
没有林荫路上的咖啡馆,没有露天的酒吧,只是一家又一家的商店卖着相同的东西。不知道这些商店是怎么赚钱的,每家店卖的东西毫无差别。
街道都很干净,但是交通很糟糕,交通灯只不过是装饰而不是交通指引标志。
所有问题的解决好像都需要更多的人。想要看上去像个华丽的宾馆,就要有个少爷样的人在男洗手间开水龙头,把肥皂液挤到你手上;没有推土机挖坑,需要五个带铁锨的人;我们坐着一辆私人车去一家餐馆,车停在一个新的有大约60个车位的地下停车场,居然有八个人在那里工作(一个按按钮来出票,另外两个指挥你在哪里停车,另外一个收好你的票交给收银员,还有两个收银员,两个保安),车位的价格是30美分一个小时,只有大约40%的车位是满的。到处都有疯狂的员工,有个地方有一百万人挤在一起买一种相同的干水果,80美分一公斤,过了街,一座正在建设的豪华公寓楼卖上百万一个单元。
没有中间选择,如果今天晚上我们吃酒店里80美元的晚餐的话一定会糟透了,我们从离酒店门外50英尺的地方买到了九天来我们吃到的最好的一顿饭,只花了70美分(三片面包和八个水饺,小摊有四个人,我们住的喜来登酒店要350美元一晚上)。
在街上吃小摊的问题是你不知道吃的是什么,可以肯定的是它肯定不是那么的卫生,那么我该怎么做,付钱吃垃圾还是冒险吃美食。
大部分地方都建设的很现代并且看起来管理很好,乱丢垃圾的人很多,但是有同样多的清洁工人也同时在捡垃圾。
在宾馆和旅游景点外,说英语的人并不多,更不用说西班牙语或法语了,如果能讲英语,导游能多挣三倍的钱。
我还没有感觉到中国的经济很强大,他们要面对严重的贫富差距、能源和污染等一系列问题,并且基础设施建设很难跟上需求的发展。
8 comments May 13th, 2006 janette
另眼看中国(1)
原文地址 A Different View on China
我的一个好朋友要花一年时间跟他的老婆还有11岁的女儿周游世界,他们现在在中国,他在旅途中发给了我大量游记。最近,我读到的关于中国的东西大部分都是关于政治、科技、或是风险资本,但是我朋友的邮件却很不同(虽然他是一个成功的科技企业家,但是他的旅行是一次个人冒险)。经过他的允许,我把他的一些感受发表在这里与大家分享。
疯狂的中国
当我在一片沙尘暴中,我感觉自己像在一个排气管中呼吸一样。北京的沙尘暴来自于戈壁,是由于所有的森林都被砍伐了,于是所有东西都覆在一层挥之不去的尘土下,再加上燃煤的发电厂,汽车的尾气和15,000,000人口,令人不能呼吸。在这个首都待了四天后,我们来到了西安(现在人口5,400,000的古都),这里也一样——你几乎不能分辨白天和黑夜——很可笑,但是也很可悲。
物价水平是两个极端:正规商店的西方品牌的价格要比美国贵40%,其他地方的商品都很便宜(只要能赚钱,卖什么牌子并不可耻)。我认为***做的很好,中国有这么多的人,如果给的自由太多了,我相信一定会有很多的不安定。
上网还很方便,用skype拨打哪里都没有问题,而且很便宜。偶尔我在中国不能打开雅虎的新文章,但是只要多试几次就可以了。中国的英文报刊就是苏联时候的宣传物,他们看世界的观点非常有趣。
中国人不像我们游览的其他国家的人那么友好,到处都是推搡拥挤,没有很多微笑,到处都挤满了人,我从来没有料想到景点大多数的游客居然是中国人。中国制造占世界20%的烟草,消耗30%,他们可能已经不太在意空气中有什么东西了。
我们在中国都嗓子疼,并且非常渴望新鲜的空气和蓝天。旅游景点很惊人,所有我们参观的景点都很干净并且管理良好。当我们在一处历史人物雕像前面跟一个老妇人买了一个风筝后,我们看见一个军人模样的人拿走了她所有的小装饰品(她都快要哭了,我们从她那买了大约75美分的东西,估计她被拿走了大约三美元的商品,我当时很想过去给她一些钱但是有警卫看着)。大多数中国人都没有多少钱,但是当我在故宫跟一位我们的导游聊天时他说,年轻人会花一整个月的工资来买一部新款的摩托罗拉手机或一双Nike鞋。
十三亿人能做很多事,但是照顾管理好这十三亿人却不是一件容易的事,我不认为中国会在五十年内能控制全球经济,而且他们还可能发生农民暴动。
13 comments May 13th, 2006 janette
奇妙的基因――谱写人类历史新篇章
基因测试――找回你的祖先
现在,便利的基因测试工具让普通人能找到自己的远古祖先。
同时,科学家们则尝试着利用人类基因来寻找人类共同的祖先。
我们的血液里隐含着我们的出身秘密
人类相同的基因多达99.9%,因此,人类的共同点远远多于不同点。但正是剩下微不足道的0.1%帮我们追踪到自己的祖先。近年来,很多公司宣传能通过基因测试查出一个人的出身。这些基因测试公司鼓励人们刮下他们的脸颊黏液,邮寄给公司,公司会帮他们测试DNA寻找自己的出身。目前,全球已有几万人参与了这个项目。于是,随着项目的开展,相隔千山万水的亲戚相互寻觅到了彼此,家族传奇不复再现。系谱DNA测试公司的总裁本尼特·格林斯潘说,六年前,”基因家谱”对人们来讲毫无意义,”但现在(基因测试公司)利润巨大”。目前,该公司拥有52,000名客户。
每个人都可以追寻到他们自身家族的故事,藉此,人口遗传学者正尝试着将更多的人类故事公布于众。最近,一组科学家发现,世界上40%的德系犹太人是四位女人的后代;另一个报道则提到每五个爱尔兰西北部人当中,就有一位可能是传说中一位五世纪军阀的后代。另外,我们共同的祖先――离我们年代最近的:可以追溯到非洲的”亚当”和”夏娃”。看看地图,你还会发现其他有趣的祖先。
迄今为止,最野心勃勃的事情是国家地理协会展开的基因地理工程(Genographic Project),该工程耗资4000万美元,将在接下来五年内在全世界土著居民中收集十万个DNA样本。目标是:从今天返回人类物种起源追踪人类根源。工程主任斯宾塞·韦尔斯说,由此将创建”人类历史的可视博物馆。”
基因测试怎么工作?
我们身上每个细胞里的DNA不仅决定了我们眼睛的颜色,还隐含我们祖先的”足迹”。小孩子的基因组几乎都是由母亲和父亲结合而产生的混合基因物质。基因组中只有两部分没有受到配偶DNA的干预,保持独立:Y染色体(由父亲传给儿子)。在这些地方偶尔会发生突变,造成A、G、C和T的顺序排列独特,这就成了系谱的标志――提供了时间上的纽带,这样,我们不仅能够找到他们父亲和母亲的祖先,还可找到这些先辈们的居住地。一般来说,只要提供一份脸颊黏液细胞,并支付100美金左右,基因测试公司就会将你的DNA标志绘进你的基因模式里――称作单模标本,然后分辨出你隶属哪个”单模群”或人类”基因树”上的哪个主要分支。现在,系谱专家们带着这些”单模群”,在互联网上参加”首姓项目”活动。这些在线社区允许人们相互比较基因组。找一个基因组匹配尝试一下,这样你就有机会往你”家族树”的枝干上添加更多内容了。
但是,如果不知道首姓,怎样找到你的亲戚呢?你可以在个人测试公司内部寻找或通过美国索伦森分子族谱基金会这样的组织里查找公共数据。美国索伦森分子族谱基金会由摩门慈善家约翰-索伦森赞助成立,收集了60,000个祖传图表样本。”最后,通过查询数据,你会发现你从不认识的亲戚。” 索伦森首席科学官斯科特·伍德瓦德说。
基因与文化及宗教息息相关
科学还发现基因和古代文化甚至宗教遗产联系紧密。
卡尔·斯克雷基博士从小就被告知他是摩西之兄亚伦――犹太教第一祭司长一位后裔的后代。有一天,他在一家犹太教堂见到一位名叫托拉的教士,此人的长相和他毫无共同点。”他是北非血统的犹太男性,而我是欧洲血统的犹太男性。”身为以色列理工大学的斯克雷基博士回忆说,”如果他因袭的传统我也有,那么我们在Y染色体上的特征很可能很接近。”那么,难道由教士父亲到教士儿子口传下来的历史也被”刻录”在DNA上面?在研究了DNA样本之后,斯克雷基博士、亚利桑那州大学遗传学家米切尔·汉莫及伦敦大学学院的同事做出了肯定答案,他们发现样本上确实有Cohanim标志。
不久前,一个国际研究小组奔赴非洲,在这里,科学家们对非洲Lemba部落的成员进行了测试。这个部落被认为来自圣经中所记载的以色列领土朱迪亚,他们的DNA中有一些和Cohanim十分相似的标志。斯克雷基博士说,”我和他们拥有共同的父辈祖先。”
2001年,人们发现新墨西哥阿尔伯克基的天主教神父比尔·桑切斯(音译)的基因也与Cohanim标志十分接近。桑切斯神父(Sanchez Jewish)祖籍是西班牙(他母亲的祖先则是美国本土人)。今天,他将他基督教犹太人祖先的图画保存在墙上。今年11月他将前往以色列旅行。
局限性
然而,科学有自己的局限性。
科学家无法直接得到像成吉思汗这样的伟大人物的个人基因,因此,他们不可能从事实上证明你是某位历史人物的直系后代。另外,通过对Y染色体和线粒体来测试家族的起源存在着严重不足,它只能告知你直系父母的血统,而无法揭开隐藏在你基因组中你的祖先的足迹。斯坦福生物伦理学家汉克·格力科利(Hank Greekly)说,DNA总共有1024种物种原形,我们只能往前追溯十代。”你的Y染色体可能来源于日本,你的线粒体来源于来自墨西哥,而其他的1022种则来自瑞典。” 格力科利说顾客未必能够完全明白他们所得到的。DNA图谱基因公司则在Y染色体及线粒体外面做标记,然后把它们绘进基因图谱的四个大区(西非、欧洲、东亚及美洲)。不过百分比是估算的,并不精确。有些科学家担心这些测试可能只被当成娱乐,或人们会将他们的行为及性格特征和种族联系起来,在近代,这恰恰是为人们所诟病的。
揭开人类起源的线索及迁徙的秘密
这次调查将得到的最有趣的结果不是找到了某个人的祖先,而是揭开了人类共同的祖先的秘密。通过识别DNA标志和计算时间,研究员们确认我们共同的祖先就是亚当和夏娃。
科学家称,通过Y染色体和线粒体,他们能够找到150,000年至200,000年前可以确认身份的最初的女性。另外,在DNA测试之前,科学家们一直在讨论人类到底是起源于非洲还是其他地方呢?最近这些新发现支持了这个观点:人类起源于几万年前居住在非洲的一个小部落。
但是,这一群群人是什么时候离开这片陆地的呢?一路上,他们碰见过谁,又有谁加入了他们的队伍呢?(在亚利桑那州,Hammer正在调查,加入队伍的,是否是智人类,比如已结成夫妇的穴居人及他们的孩子呢?)而像亚历山大大帝征服亚洲大陆这样著名的历史事件,是否也在他们的基因上留下了一些”痕迹”呢?这正是国家地理学家斯宾塞·韦尔斯希望得到解答的问题。
去年,基因地理工程(Genographic Project)和它的合作伙伴IBM公司,邀请公众测试自己的DNA,现在全球超过100, 000人购买了这套价值99.95美元的测试工具。但该工程的间接目的是收集全世界各地土著居民的DNA样本,他们的DNA中含有人类起源的线索及人类迁徙的秘密,而这必须在这些脆弱的土著居民死亡之前,或在他们从祖祖辈辈生活的家园迁走之前赶紧收集起来。
初期测试已经在南非展开,合作者之一辛拉·苏迪奥(Himla Soodyall)博士已经从桑族收集了一些血样。从基因上来看,桑人是地球上最古老的人种之一,并和我们的祖先亚当和爱娃在染色体上有直接联系。 28岁的Fi.Mntungwa是首批捐赠血液人员之一。”我们被告知基因的有关知识,知道这项要寻找全世界人类起源的大型工程。这件事非常有趣。” Mntungwa说,”我希望这样做能够振兴我们的古代文化。”
去年秋天,韦尔斯收集了500个试管血样,还有注射针、酒精抹布和脸颊黏膜细胞。然后,他又向非洲中北部的乍得湖出发。乍得湖是工程首期的测试点之一,在那里,他从周边国家的城镇和乡村收集到300个DNA样本。在被隔离的Laal社区,韦尔斯收集到35至40个血样。他获得了珍贵的DNA血样、理解了该社区的文化传统和他们的语言――为科学家能够深入研究4000多年前居住在中非的首批人群提供了重要资料。Laal社区的人口不到750人,正在渐渐消失。Wells担心这个社区在未来的10到30年将彻底消失。
并非所有人都支持基因地理工程
历史上,土著居民也曾遭受殖民主义掠夺,因此,很多土著人仍然不相信主流文化。土著人民生物殖民主义委员会主任黛布拉·哈利(Debra Harry)已经在她的网站上贴了一份反对该工程的请愿书。她说到目前为止已有1000人签名支持。不过,位于马萨诸塞州Seekonk的部分万帕诺亚格人已经接受了测试。万帕诺亚格族主席迈克·马克利(Michael Markley)说,”我们有自己创造的文化,但还有其他需要说出来的故事,它就在我们每个人的身体里。” 韦尔斯说他明白土著人的担心,但他发现一旦向他们详尽解释基因地理工程之后,他们都会变得兴趣嫣然。”他们发现自己体内的细胞记录着历史,都觉得非常奇妙。”
现在,科学家们正在拼凑的就是人类历史的第一卷。
(anna投稿,编译自2006年5月首期newsweek 页码:P46–P49,欢迎访问译者blog)
1 comment May 8th, 2006 mimiqiao
Previous Posts
--------------------------------------------------------------------------------
欢迎在文后发表评论
版权声明
本站采用创作共享版权协议,要求署名、非商业和保持一致。本站欢迎任何非商业应用的转载,但须注明出自“blog中文翻译”,保留中文原始链接,此外还必须标注英文原文标题和链接。提醒:如果转载本站文章,你的站点也必须遵循同样的创作共用协议。
订阅
Bloglines订阅
Newsgator订阅
My Yahoo订阅
Rojo订阅
gougou订阅
周博通订阅
博阅订阅
总分类
网络
管理
媒体
中国
推荐文章
翻译团队成员:
000det
biantaishabi
cranewang
DingDeng
doubleaf
feiyafei
hopesome
idleawei
Indigo
JunChen
liushen
lynn
Metaldudu
mimiqiao
neocheung
neverdoright
qenghis
Rangang
undersound
wp后台管理
欢迎提出建议
智言
自由来自于使规制保持昂贵。
——Lessig
优秀同好
图林中文译站
WEB文献翻译站
李海翻译文章汇总
de dream交互设计翻译站点
uiGarden编织可用性及文化
推荐阅读
这里是对于纽约时报杂志版上一篇长文Google's China Problem的翻译
这是一篇讨论web标准中layout问题的好文章,谢谢old9的辛苦翻译工作。Most Recent Comments
vincent ? Yahoo MSN 齐变脸: [...] 亚马逊网站导航栏的变迁...puppy: "亚裔美国人的特殊身份在40年...绵羊: 一楼,我这么说可能会被拍,...Tangos: 厉害,这么长的文章都翻译 :...000det: 一看12条回复。。。原来都是关...janette: To Campus: 恩,有道理,欢迎斧...stella: “中间选择”改为“折中选择...campus: 这篇原文回复中不少人不同意...campus: "到处都有疯狂的员工,有个地...ET: 谢谢带来的好文章 想问下上...
Rss加油站
Feedsky携手Joyo试水Rss广告与Rss电子商务GreatNews新版酷功能:跟踪评论Feedburner推出一项新服务FeedFlareOPML中文站开通RSS厕纸?中国播客观察
2005年度播客评选结果出来了木子美的播客将对中国播客发展有何影响?2005 年度中文播客评选开始投票了[播客观察]Welcome back 反波[播客推荐]紫雨的大马播客
blog中文翻译 首页 欢迎来稿 全部档案 作者聚合 FAQ
--------------------------------------------------------------------------------
参加和不参加中文网志年会的5个理由 商业周刊专访Blogcn总裁胡之光
《经济学人》: 新奥尔良的艰难时世
September 5th, 2005
原文标题:Deeply difficult times for the Big Easy
原文链接:点击这里
原文发表时间:2005年9月2日
在卡特里娜飓风肆虐之后的几天,新奥尔良的灾民终于得到了急需的帮助。人们不禁愤怒地质疑漏洞百出的救济措施,之前的许多决策使得这场灾难雪上加霜。
新奥尔良市的别称Big Easy曾经是多么名副其实。那儿的居民和游客一直以来都非常喜欢它“无需忧明日”的态度。虽然大家都知道这个地势低洼的城市非常易遭暴风和洪水灾害,但是许多居住多年的居民曾经历过数次飓风的惊吓以及不算严重洪灾,他们本已对类似的灾难泰然处之。然而面对这次飓风后的物质毁坏和骇人听闻的违法行为,许多人现在都想知道,那些无论是当地还是州政府,乃至联邦政府的官员们是否都应该对明天考虑更多一些。
本来,新奥尔良的大堤可以使城市免受南边密西西比河和北边Ponchartrain湖的侵袭;然而自从周二早晨(8月30日)决堤以后,情况开始恶化,乃至成为一场噩梦。尽管水位不再上升,然而城市的大部分地区仍然很糟糕。周日市长宣布人们必须离开该城时,大约有100,000灾民不愿或者无法离开。于是成千上万的人滞留在政府在Superdome设立的避难所,几天之后这里就变得乌烟瘴气。当多达数千的不幸灾民通过客车疏散到休斯顿时,其他人很快占用了他们原来的位置。不远处,其他无家可归的灾民聚集到市会议中心,那里很快成了第二大避难所。据报道那里的情况比Superdome还要来得糟糕– 一直到周五,大量的食物、使用水以及药物终于送达。
同时,一些歹徒开始在街上疯狂地偷窃食物和饮用水,有时甚至对计算机和运动设备打主意。歹徒门将一家大型沃尔马超市的枪支洗劫一空,其中一人甚至幸灾乐祸地看到一些警察居然也在大肆洗劫货架上的商品。媒体报道了几件强奸和劫车案件,还有一些暴徒和商店店主或者私房屋主之间的对抗事件,双方都时常动用枪支。更为糟糕的是,泄漏的煤气在水面上冒着泡,有时甚至引发大火,一些大火和爆炸将城镇变得乌烟瘴气。
卡特里娜飓风的确非常强烈–密西西比和阿拉巴马两州的沿海地区都遭受打击,然而飓风过后新奥尔良发生的混乱局面无疑让人惊诧不已。毕竟美国以前应对过强烈的飓风,而新奥尔良面对飓风的脆弱性也是众所周知的。因此无论是短期内的应对措施还是长期以来的相关政策都开始受到许多人的指责。
市长RayNagin一周来表现得愈发沮丧,特别是看到联邦政府的反应及其新闻发布会:“当地政府像对待牛马一样对待灾民。他们在团团转时,灾民却在不断死去……快点滚蛋,让我们来负责救灾工作。”而警方负责人则同样怨气冲天,埋怨由于缺乏国民警卫队的帮助而没有更早地建立起秩序。(根据美国法律,正规军人不能参与法律实施。)周五国民警卫队的一支大型分遣队终于抵达该城,路易斯安那州州长Kathleen Blanco警告歹徒“警卫队队员知道如何击毙你们”。
许多直接的困难是可以理解的。正如国土安全部秘书Michael Chertoff所指出的那样,灾难实际上是双重的。飓风将湾区的家园夷为平地,然后很快雨水冲垮了大堤,后者使得情况发生了变化,而当局的措施还是针对前者。大水从一个直径百米的堤口冲进来对工程师来说无疑是一个巨大的挑战。道路无法通行显然使得物质运送极其困难。尽管如此,备受压力的George Bush总统在周五上午乘机飞往受灾地区视察时仍然指责救灾措施,认为是“不可接受的”。
有人将矛头指向布什自己,因为布什政府的一些长期决策使得对灾难作出适当响应更加困难。有人注意到伊拉克战争已经耗尽了路易斯安那、密西西比和阿拉巴马三个州大约三分之一甚至更多的国民警卫队成员;这些在伊拉克的士兵都属于训练有素、能处理紧急事件的士兵。还有人则指责战争使得缩减了其他预算,导致去年改善堤坝的工程受到拖延。然而尚不清楚这些工程能否原先能否按时完成以阻止卡特里娜飓风后的洪水。
另外一些批评则更具有政治攻击性。尽管高油价不足以让美国经济增长明显下挫,然而美国已可以感觉到其带来的痛苦。卡特里娜飓风则让油价至少在一段时间内将居高不下。布什先生决定每日从美国战略石油储备以及美国石油公司调用100万桶石油,这虽然暂时缓解了石油供应恐慌。然而伊战和布什的能源政策并没有使得美国更不易受石油市场的影响。
同时有些人将这次灾难归咎于总统在气候变化上面的政策。这些批评可能不能立足。气温升高可能会对飓风的强度有所影响,但是没有明显的根据相信如果布什在 2001年签署京都协议的话卡特里娜飓风便不会让新奥尔良大堤垮塌。尽管如此,任何可能和环境政策扯上关系的自然灾害,无论是多么微不足道,都可能对布什造成负面的政治影响??特别是民意测试表明投票者将环境问题视作其软腭之一。
即使这次卡特里娜飓风引起的致命灾难的某些原因可以归咎于布什政府,其主要原因可能还是在现任总统之前;从Jean Baptiste le Moyne de Bienville在1718年决定在这个不稳定的地点建城,到更迟时候该地区海上导航的系列“改进措施”–这些措施毁坏了路易斯安那州东南地区的沼泽地。在20世纪的大部分时间里,联邦政府在密西西比州瞎折腾以改善航运以及–具有讽刺意味的–防洪。在这过程中新奥尔良附近的大片沿海的沼泽地都遭到了破坏–尽管这讨好了那些房地产开发者,然而这个城市也因此失去了天然的防洪屏障。可能越来越多人现在开始支持一个花费几百万美元的恢复沼泽地计划,然而佛罗里达州一个类似的项目已表明实行起来非常困难。
数百万计的美国人选择居住在易受飓风等灾难影响的地区,这是一个让人不安的事实。虽然国会已经批准一项高达105亿元的紧急救助拨款,众议院发言人 Denny Hastert对这些款项的大部分是否会花费在类似新奥尔良地区的重建上面持怀疑态度(然而他后来收回了该言论)。但是这次灾难依然留下许多重要问题,无论是当地还是整个国家的人们,都应该问一下到底什么导致了这次天灾人祸。同时它也给世人一个提醒,即那些对结果预计不周的决策,很可能将带来极其痛苦的结局。
(feiyafei编译)
此文章在 网络分类下
本站随机推荐阅读:
改进blog评论部分的10点建议
中国服务业的发展
GREE田中社长的创业方法
亚马逊网站导航栏的变迁史
好文| Throwing Tables Out the Window
8 Comments Add your own
1. Mr WordPress | October 6th, 2005 at 4:58 am
Hi, this is a comment.
To delete a comment, just log in, and view the posts’ comments, there you will have the option to edit or delete them.
2. Administrator | October 6th, 2005 at 9:18 am
test
3. nf | October 7th, 2005 at 12:57 am
抱歉,不知道有没有找错地方,好像应该是这里……请问“blog中文翻译”发生什么事,我记得应该已经有很多文章了的?
4. Administrator | October 7th, 2005 at 6:10 pm
修复中..
5. feiyafei | October 8th, 2005 at 2:57 am
啊哦,终于好了啊……我马上要去实习了,恐怕都没有时间做logo了
6. AMBIEN | April 17th, 2006 at 8:52 pm
???
7. AMOXICILLIN | April 20th, 2006 at 5:17 am
gfdgdg
8. AUGMENTIN | April 23rd, 2006 at 1:34 am
???? ??????p>
Leave a Comment
Name Required
Email Required, hidden
Url
Comment
Some HTML allowed:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>
Trackback this post | Subscribe to the comments via RSS Feed
--------------------------------------------------------------------------------
欢迎在文后发表评论
版权声明
本站采用创作共享版权协议,要求署名、非商业和保持一致。本站欢迎任何非商业应用的转载,但须注明出自“blog中文翻译”,保留中文原始链接,此外还必须标注英文原文标题和链接。提醒:如果转载本站文章,你的站点也必须遵循同样的创作共用协议。
订阅
Bloglines订阅
Newsgator订阅
My Yahoo订阅
Rojo订阅
gougou订阅
周博通订阅
博阅订阅
总分类
网络
管理
媒体
中国
推荐文章
翻译团队成员:
000det
biantaishabi
cranewang
DingDeng
doubleaf
feiyafei
hopesome
idleawei
Indigo
JunChen
liushen
lynn
Metaldudu
mimiqiao
neocheung
neverdoright
qenghis
Rangang
undersound
wp后台管理
欢迎提出建议
Calendar
May 2006 M T W T F S S
? Apr
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Most Recent Posts
On Bots(中文翻译)
第二代亚裔美国人的成长阵痛与觉醒
另眼看中国(3)
另眼看中国(2)
另眼看中国(1)
奇妙的基因――谱写人类历史新篇章
中国服务业的发展
中国和因特网——下一件大事?
Google的中国问题
怎么让一天有36个小时
Rss加油站
Feedsky携手Joyo试水Rss广告与Rss电子商务GreatNews新版酷功能:跟踪评论Feedburner推出一项新服务FeedFlareOPML中文站开通RSS厕纸?中国播客观察
2005年度播客评选结果出来了木子美的播客将对中国播客发展有何影响?2005 年度中文播客评选开始投票了[播客观察]Welcome back 反波[播客推荐]紫雨的大马播客
导入论坛 引用链接 收藏 分享给好友 推荐到圈子 管理 举报
TAG: IMF
-
引用
删除
Guest / 2008-05-31 10:00:37
-
公司是专业生产不锈钢厨房设备,高档不锈钢门面装饰,提供专用2B-304#不锈钢,整套厨房设备。承接各种不锈钢工程的厂家,能根据您的需求生产各种规格产品。
公司以其先进的技术、专业的设计、丰富的经验几年来公司完成了多项大型北京最新公交站牌、候车亭、指路牌、不锈钢广告牌、户外广告牌、不锈钢灯箱工程,积累丰富的经验相继开发了形式各异的多款新款不锈钢广告牌,充分认识到结合环境、人文、科学的特色设计并不断完善设计出室内与室外两大类新产品。主要产品形式有:挂壁广告牌、立地单(双)面广告牌、悬挂式广告牌、装饰体灯箱(候车亭等)以及超大型公路两边灯箱;
专营韩国感应自动门系列及日本松下自动门系列的和中国自动门系列的专业公司。
松下自动门,感应门,感应平移门,旋转门,平开型自动感应门玻璃门,不锈钢地弹簧门,自动感应门,旋转门,自动旋转门,手动旋转门,二翼带平开感应门旋转门,三翼电动旋转门,四翼旋转门,进口自动旋转门等。公司集自动门批发,零售,设计,生产,加工,安装,维修一条龙服务。
业务电话:010-86051133
公司网址:http://www.w8088.com
网络实名:北京不锈钢设备
北京京日港不锈钢装饰厨房设备
网址:http://www.w8088.net
