记一次存储Inode数量引发的生产故障

前一段时间，突然收到了系统报警，某上传服务异常。

经过排查，上传服务正常，但存储无法正常写入，一直写入失败，表现为：
1、一块新盘，32T，已使用2T，可用30T，控制台和命令行操作结果一直
2、服务写入时，一直报“no space left on device”
3、没有收到任何存储报警

立刻找了云服务厂商的老师，解决了问题：
1、除了限制写入文件总量的大小、并发写入的速度，同时还限制了inode数量
2、上传服务，写入了大量小文件，耗尽了inode数量
3、上传服务，再次写入后，inode申请失败，导致写入失败
4、存储组的老师，紧急扩展了inode数量，解决了问题

经排查，云服务商反馈：
1、为了控制成本，我们之前买了一块较小的硬盘，然后进行了扩容
2、而存储的底层协议为FlexGroup
3、而FlexGroup的普通卷，在扩容的时候，只要超过了1T，默认的Inode数量就一直为21251126，不再提升
4、而我们的上传服务，一个小文件只有几百k，很快就把Inode数量耗尽了
5、对于Inode数量限制，云服务商没有提供任何监控

虽然FlexGroup的超大卷默认会提升Inode数量，但我们一开始购买的服务确是普通卷，然后进行扩容，扩容后仍是普通卷，就触发了Inode数量不会自动增加这个问题。

后续，我们做了两个约定：
1、尽量采购超大卷
2、如果要采购普通卷，同时提单，增加Inode数量
3、云服务商同步进行产品更新，后续产品迭代时，从根源上解决这个问题

PS：
最近发现，他们居然做了一个inode扩容的功能，默认是最小值，可以手工扩展，也能设置为自动扩展。
不知道是谁定的需求，默认选项不应该是自动扩展吗？

Leave a Reply Cancel reply