数字图书馆中大数据存储的应用研究论文
【摘要】大数据时代,数据的存储与快速存取成为图书馆管理工作中的重要问题。现代图书馆数字化的管理模式带来更大的资料数据容量,同时也为数字图书馆的存储功能提出了更高的要求。传统的数据存储和数据管理方式早已无法达到大数据存储的要求标准。数字图书馆中大数据存储问题还需要进一步的深入研究,并寻求顺应科技发展的全新的模式来应对大数据的存储难题。
【关键词】数字图书馆;大数据;存储;应用
图书馆、阅览室的数据存储系统与其他行业的存储系统有较大不同,主要表现在:①数据量庞大。一座大型图书馆每年的数据增量可达10TB以上;②存储周期长。图书馆数据需要较长的存储时间,甚至可达50年以上;③数据类型多样。现代图书具有影像、图像、文字、声音等数据,均需要存储;④高度的可靠性和安全性要求。作为一所信息化程度较高的图书馆,为了构建一个满足业务需要的高效数据存储系统,可以利用数据压缩、重复数据删除、自动精简配置、自动分层存储等现代数据存储技术,对大数据进行高效的存储和管理。
一、数字图书馆大数据存储容量不足的问题
现代图书馆是一个十分复杂的机构,完备的图书馆除了具有对借阅人员信息、图书还借与出人信息、图书设备信息等硬数据进行管理外,数据量最大最复杂的当属对图书资料本身的软数据管理以及现代电子图书资料的储存与管理,特别是大型图书馆或高校图书馆,门类齐全、借阅量大、内容及设备多样,更使得它所产生的数据结构复杂且数据增量大。
图书馆的数据量随时间线性增长,随着各种类型的数字化图书及设备越来越多,信息化程度的不断加强,对图书及读者管理规范程度的不断提高,以及读者对资源要求的不断加深,致使数据容量加速增长。
当前大型图书馆每年的数据增量大约为20~30TB,如此浩大的数据量,对于一个拥有100TB存储容量的图书馆一也只能满足3一5年的数据存储需要,因此需要采取有效的应对措施予以解决。
日前,许多高校图书馆的存储设备容量利用率不到50%,大有潜力可挖。在图书馆实际管理工作中,在缺乏技术的情况下,经常采取整理碎片的技术来提高存储空间利用率和数据查询效率,这对于一般性的小容量操作是可行的,但对于大型数据系统其耗费的时间是难以估计的。况且,碎片的整理并不能有效消除分配卷中未使用的空间,达不到精简配置的目的。
二、数字图书馆大数据存储容量不足的应对
措施日前许多图书馆采取的办法是由被购买了电子图书的商家作数据备份,这显然不是最有效的数据存储机制。为了大幅度提高数据存储效率,最有效的办法是采用数据压缩技术和重复数据删除技术。
1、利用压缩技术提高空间利用率
对于书籍等图书资料文件,其文件内和文件间存在大量的相似性关系,Delta压缩技术则可以对文件内和文件间的数据进行比较,删除文件内和文件间的冗余数据,达到数据压缩的日的,相似程度越高,压缩比越小。
2、利用消重技术提高空间利用率
图书馆数据在存储过程中往往有大量的备份数据,数据经过多次备份后,产生较多的数据重复,重复数据删除技术在备份过程中能够较好地消除重复数据,进而节约空间。对于重复数据备份,可以分为时间数据消重和空间数据消重。对于电子书籍等产生的数据一般属于自然数据,其主要特点是,数据的变化率较低、完备的数据备份、数据长期保存、数据内容可以感知等,因此,适合采用时间数据消重。因此,就本校图书馆的数据整理,大约每三个月进行一次。
图书馆数据量庞大,仅仅一所5000人规模学校的中型图书馆,其电子图书数据量就可达到15TB以上。因此,不能简单采用与中小备份类似的解决方案,由于存在大量的图形文件及影像文件等,其海量数据备份是一个非常耗时的过程,在热备份情况下,可能需要花费近一个月时间。最佳实践做法是,采用备份设施来拷贝数据并同时保证应用程序仍然可以让客户端使用。重要数据的备份可以使用有冗余级别配置的主机或硬盘RAID。两个独立硬件控制的RAID阵列的软件镜像可以用来备份其关键数据。这种技术可以保证当某个磁盘或阵列发生故障时整个系统仍然可以使用,任何网络组件的故障,如网卡、视频设备、IDE控制器、电源等可以容易地替换而不影响运行。最经济且非常有效的数据备份方案可以采取冗余技术RAID4,即若干个数据盘带一个冗余盘,在这些盘中的相应块内,存储的相应位的1的个数必须是偶数个。当某一个数据盘发生故障而更换了新盘后,只要按照偶数个1的原则就可以将损坏了的数据恢复到新盘中。
在实际操作中,可以有多种备份方案,通常采用停机备份:正常关闭待操作数据,进行数据的冷备份。备份所有数据文件、控制文件、日志文件和参数文件,把冷备份拷贝到新存储设备上,然后新建一个同名实例,最后再把备份数据文件重新打开即可。
3、提高存储空间的利用率
对于某项应用,传统空间分配方案采用完全供给,以确保该应用拥有足够的增长空间,这势必造成大量的存储空间闲置,在空间浪费的同时也造成了能源损失。采用自动精简配置是一种较新的存储空间管理技术。利用自动精简配置技术,能够帮助用户在不降低性能的情况下,大幅度提高存储空间利用效率,能使用户实现接近100%的存储空间利用率,因为数据需要多少空间系统则按需要进行分配,基本不产生多余的空间。自动精简配置技术的一个明显的优势在于可自动扩展分配卷,无须手动扩展,而且当需求变化时,无需更改存储容量设置;通过虚拟化技术集成存储,减少超量配置,降低总功耗。这也是解决机房耗能问题的很有效的方法。
三、总结
总的来说,对于数字图书馆大数据的存储和管理都十分关键,有效地存储和管理大数据是现代图书馆信息化管理的必要基础,良好的数据管理技术能够为图书馆管理工作的顺利开展提供保障。所以,加强大数据存储工作的管理,是未来数字图书馆发展的重要保证。
参考文献
[1]彭磊.建立SAN(存储局域网)——高校图书馆数据存
本文标签:
[!--temp.ykpl--]