终极索引工作 - 彭博社
bloomberg
互联网将比历史上任何其他技术提供更多的数据。这是承诺——也是问题。正如任何使用过Yahoo!或Alta Vista等搜索工具的人所知道的,筛选出所有无关的“点击”可能会让人失去耐心。而且情况正在变得更糟。如果商界人士无法快速找到关键信息,网络的潜力可能会受到严重影响。
为了避免这种情况,位于伊利诺伊州香槟市的国家超级计算应用中心(NCSA)的研究人员正在开发一种类似于图书馆员使用的索引方案。这是联邦政府数字图书馆计划的一部分——而且这项工作变得比预期的要大得多。
NCSA团队由研究员布鲁斯·沙茨(Bruce Schatz)领导,使用伊利诺伊大学香槟分校工程图书馆的1000万篇摘要测试了这种方法。他们决定在分析内容后,让计算机将其分为1000个主题领域。但即使是这个相对较小的样本,创建索引也迅速超出了团队工作站计算机的能力。因此,这项工作被转移到NCSA的一台超级计算机上,该计算机连续工作了四天。沙茨表示,索引可能会成为NCSA有史以来最棘手的问题。