美国国会图书馆网站
国际新闻 2022-11-24 06:49www.worldometers.cn最新国际新闻
北京时间1月22日,据国外媒体报道,美国国会图书馆(library of congress)目前平均每天要收录4亿条由美国人发出的tweets信息。美国国会图书馆认为,这些简短的信息可以将“国家故事”中小、但却非常重要的部分反映出来。
美国国会图书馆的通信总监盖尔•奥斯特伯格(Gayle Osterberg)表示:“美国国会图书馆任务之一就是收集美国故事,以及获得有研究价值的信息。”
美国国会图书馆坐落于华盛顿国家广场,目前收藏了数百万印刷图书和历史文献,其在线档案收录了数百万由美国人在过去两个多世纪中创造的作品。
2010年4月,美国国会图书馆与Twitter公司达成一项协议。根据协议内容,Twitter将向美国国会图书馆提供所有twitter信息。美国国会图书馆先是收录了2006年-2010年4月期间产生的210亿条推文,后来又补充了从那时起直至现在的1500亿条推文。
盖尔•奥斯特伯格表示:“收集140字的twitter信息正好符合美国国会图书馆的使命——收集美国故事和获取有价值资料的使命。”
对于美国国会图书馆来说,收集twitter信息过程中所遇到的最大挑战就是如何对这家社交网站上用户发布的信息进行分类。目前,Twitter网站上产生的twitter数量已经达到1700亿。上个月,Twitter宣布,该网站上的活跃用户数已经达到了2亿,其中大部分来自美国。
而对于那些已经被删掉或者屏蔽掉的tweets将不在美国国会图书馆收集的范围内。
美国国会图书馆收集的第一条Tweet信息是来自这家公司的创世人之一杰克•多尔西(Jack Dorsey).同时,这些收集的信息当中也包括奥巴马在2008年赢得美国总统大选时发布的tweet:“我们刚刚早就了历史,这一切源于你们付出的时间、智慧和热情,所有这一切得功归于你们。谢谢你们!”
跟传统的精装书或者数字网页不同,收集tweet信息面临的真正挑战就是用户所发出的tweet数量的不断增加。
2011年2月,Tweet网站上每天发出的tweets数量为1.4亿,而到了2012年12月,这一数字已经增加了2倍多。
美国国会图书馆收集的tweets信息由Gnip公司储存。Gnip是一家社交媒体聚合网站,总部位于科罗拉多州博尔德市,目前拥有13.3万千兆储存空间。
Gnip 公司表示,真正的挑战来自高峰时期对tweets 的收集,比如2011年3月日本海啸期等事件的爆发。当时,每秒钟产生的tweet信息数量有好几千。
同时,Gnip公司面临的另一个挑战就是将这些收集到 tweets 信息如何让需要查阅的人看到。
到目前为止, Gnip公司还无法满足全球研究者的信息查询需求,而即使对2006年和2010年间产生的tweet查阅一边也需要24个小时。
美国国会图书馆表示,尽管对twitter档案还没有向研究人员开放,但是他们已经收到了来自世界各地研究人员的约400个查询请求,查询的主题涉及文化、政治、医疗、经济等诸多方面。
美国国会图书馆在最近公布的白皮书中写道,目前让研究人员获得这些数据的技术水平要明显落后于这些数据的产生和传播的技术水平。现在技术不足,而开发这些技术的成本非常高。
康奈尔大学通讯教授李•汉弗莱斯(Lee Humphreys)表示:“简短的网上信息可以发映出信息来源地的文化。”