这里的文件是从osrc中拿到的,也就是github上面的数据,可以在这里获取一个拷贝,只是是我自己get的。https://github.com/gmszone/ml
HDF
是用于存储和分发科学数据的一种自我描述、多对象文件格式。HDF是由美国国家超级计算应用中心(NCSA
)创建的,以满足不同群体的科学家在不同工程项目领域之需要。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为:
除了NCSA在用它,我想还有国家卫星气象中心因为国家卫星气象中心提供了一个中文版的翻译HDF5.0 使用简介 - 国家卫星气象中心 ,大赞一个!
看看points.h5里面有什么。。
h5dump points.h5
不过里面的内容过多了
h5dump points.h5 | less
会有类似于下面的结果
HDF5 "points.h5" {
GROUP "/" {
DATASET "names" {
DATATYPE H5T_STRING {
STRSIZE 39;
STRPAD H5T_STR_NULLPAD;
CSET H5T_CSET_ASCII;
CTYPE H5T_C_S1;
}
DATASPACE SIMPLE { ( 50001 ) / ( 50001 ) }
DATA {
(0): "wangqianfront\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\0
(1): "saturday06\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\000\
....
(50000,0): 0.0833333, 0.636364, 0, 0, 0, 0, 0, 0.363636, 0, 0, 0, 0, 0,
(50000,13): 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0.5, 0,
(50000,32): 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, }
}
}
}
只是如果我们只是想查看h5文件的结构而不是结果
h5ls -vlr points.h5
我们可以用上面这个命令
Opened "points.h5" with sec2 driver.
/ Group
Location: 1:96
Links: 1
/names Dataset {50001/50001}
Location: 1:1400
Links: 1
Storage: 1950039 logical bytes, 1950039 allocated bytes, 100.00% utilization
Type: 39-byte null-padded ASCII string
/points Dataset {50001/50001, 63/63}
Location: 1:800
Links: 1
Storage: 25200504 logical bytes, 25200504 allocated bytes, 100.00% utilization
Type: native double
关于参数的解释
-l, --label Label members of compound datasets
-v, --verbose Generate more verbose output
-s, --string Print 1-byte integer datasets as ASCII
这个结果也就是说只存储了5万个数据,有意思的是上面是5万个用户名。
name
points
而这是一个有趣的用于记录github上面用户与相似用户的数据。
它还有下面这些命令
h52gif h5debug h5import h5mkgrp h5repack h5unjam
h5cc h5diff h5jam h5perf_serial h5repart
h5copy h5dump h5ls h5redeploy h5stat
只是似乎在当前用不到这些
围观我的Github Idea墙, 也许,你会遇到心仪的项目