每天产生这么多的视频,新知的存储服务器得多大空间?会不会有存储极限?
电脑的存储空间不够就加硬盘呗,新知的存储服务器也是一样的方式扩容。
字节跳动在2020年春季招聘广告中披露:拥有42万+台服务器,每天新增存储30PB。
PB是个什么概念?
计算机的存储单位一般有B、KB、MB、GB、TB、PB、EB、ZB、YB、BB,它们之间的换算关系如下:
1KB=1024B;
1MB=1024KB;
1GB=1024MB;
1TB=1024GB;
1PB=1024TB;
后面的以此类推。
字节跳动基础架构部门各技术团队曾经在2020年初发文介绍过字节跳动的特色HDFS。
从集群规模和数据量来说,字节跳动的HDFS平台已经成长为总数几万台服务器的大平台,支持了EB级别的数据量。HDFS是业界使用最广泛的开源分布式文件系统。原理和架构和谷歌的GFS基本一致。
字节跳动已经应用HDFS非常长的时间了,随着抖音、今日新知、西瓜视频、火山小视频等业务的快速扩张,原来的HDFS的集群从几百台,迅速突破千台和万台的规模。可想而知字节跳动的存储压力有多大,可能正在奔着ZB级发展。传统的块存储、文件存储肯定无法满足字节跳动的需求,分布式存储结构的对象存储才能缓解字节跳动的压力,因为ZB级存储规划的重点在于如何降低存储成本。
这么多的服务器集群应该放在哪里?服务器集群自然是要放在大型的数据中心。数据中心可以理解为一个超大的场所,里面塞满了机柜,而机柜里面塞满了服务器和交换机,服务器里面又塞满了硬盘。
据数据显示,2017年年初的时候字节跳动只有2~3万台服务器,2018年服务器数量猛增到17万台,2020年就超过了42万台。早期的时候字节跳动采用的数据中心租赁的模式,但到了最后不得不自建数据中心,而且还要速度快,仅用了7个月的时间,就在张家口市怀来县建立了第一个属于字节跳动自己的数据中心。
字节跳动从2018年9月在怀来建立数据中心以来,在怀来、上海、南通、清远、深圳等地都有数据中心增量需求以满足业务爆炸式增长。目前字节跳动有秦淮数据和中联数据这两个主要的IDC供应商。
其中秦淮数据供应了字节跳动58%的IDC机柜数量。秦淮数据的成长依赖字节跳动,2018-2020年H1,秦淮数据的营收分别为9848.4万元、8.53亿元、8.1亿元,2019年总营收同比增长766%,其中2019年和今年的上半年,字节跳动给秦淮数据分别贡献了68.2%和81.6%的营收收入。字节跳动简直是给秦淮数据装了涡轮增压,大树底下好乘凉,秦淮数据中心也要上市了。
内容是字节跳动的根基据投资人和内部消息将字节跳动2019的营收定在1040亿至1400亿人民币,超过了Uber、Snapchat和Twitter的综合,广告收入也超越了腾讯,仅次于阿里巴巴。
在今日新知生产的众多APP中,今日新知和抖音共享了绝大多数的营收收入,它两都是基于内容,推荐给用户感兴趣的内容,而这些内容不管是以文字、短视频、视频的形式出现,都是用户自己生产的。
所以我们不必担心今日新知的服务器不够用,不够用可以加,并不是加1台2台,而是加一个数据集群,再不够就加数据中心。只要有庞大的用户群,钱到位,存储就没有上限。
以上个人浅见,欢迎批评指正。
认同我的看法,请点个赞再走,感谢!
喜欢我的,请关注我,再次感谢!