阿里云盘故障,阿里云又道歉了!
2月3日消晚间,阿里云盘出现了法访问的情况,其中 App、网页端、PC 客户端全都无法加载内容,甚至 API 接口还出现了 502 故障。
以下是我亲身的经历:当时我正在下载某热门科幻电视剧的资源,本来一切顺利,但大概从晚上7点开始,下载的任务突然中断,但我网络连接是正常的,我先后尝试了先停止任务再启动下载、切换连接的网络(手机热点),都没有解决问题,最后选择重启,但结果更糟糕,阿里云盘启动页面一直转圈,转了几分钟后提示“应用网络状况不佳请检查网络后重试”。以为是软件bug,重新删除重新安装。这时候才发现官网也挂了,安装包都下载不到。尝试重新刷之前打开的网页云盘,也挂了。截止至晚上11点,问题仍然没有解决,以阿里云的技术能力,我简直是无法想象啊。
对此,阿里云盘官方在今日凌晨回应称:
各位盘友,非常抱歉,由于系统故障,阿里云盘 2 月 3 日晚间出现了短暂的无法正常使用的情况,23:50 分已修复,不影响盘友的数据和后续使用。感谢大家关心,盘盘已经去面壁了。
我只能说阿里云重新定义了“短暂”这个词,对于一个ToC的互联网产品,从7点到将近12点,停服了将近5个小时,这叫做“短暂”?就一句“已修复”“不影响后续使用”“面壁”就完事了?我只能说,阿里云终究还是充满着技术性的傲慢。
这已经是近期阿里云为公众所知的第二次重大故障,上一次是去年12月18日,阿里云香港PCCW机房制冷设备故障,引发了阿里云香港区大宕机,影响香港地域可用区C的云服务器ECS、云数据库、存储产品(对象存储、表格存储等)、云网络产品(全球加速、NAT网关、VPN网关等)等云产品使用。这一事件也直接导致阿里云火速换帅,其严重性可见一斑。
一个机房的出问题就全局宕机了?一个系统故障就导致服务中断5个小时?说好的可用区之间隔离,跨区高可用,自动恢复自动切换呢?这就是公认的中国技术能力最强、系统可靠性最高、运维保障能力最强的阿里云?
犹记得,2017年10月12日,在当年的杭州云栖大会现场,阿里云副总裁李津用掷骰子的方式随机选择了一组机柜,拔掉电缆模拟机房断电,一路机柜直接关闭,但专有云上的业务依然照常运行。
到底是大会上只是在作秀,还是阿里云的能力在倒退呢?
而与阿里云能力倒退同步的,是阿里云的业绩——阿里云2022财年的4个季度,阿里云的增速分别为30%、33%、20%、12%,而最新公布的数据是4%,阿里云正在失去速度。
让人深思的是,这背后原因是什么?下面是一名阿里云内部员工在知乎上的发言:
本质都是因为大家太卷。让大家只能一直被推着往前跑,不会静下心来踏踏实实把一些基础的东西给做好,因为反正你已经被骗进来了。那么后面就会不断加价套牢你。随着前面一波从0到1的人因为拿到成绩,晋升了或者走人了。这个项目就交给后面进来的人进行维护。可是以KPI导向的公司对于维护的人是不能算绩效的。因为没人在乎从1-100.只在乎从0-1.因此后面的人想要晋升,就必须要再重新做一个项目。然后重新上马一个新的项目,再起一个高大上的名字。美其名曰全方面升级。什么时候程序员能少点内卷。少点KPI就好了。也许大家才能安心写文档,安心处理BUG。安心提高用户体验。
我们当然不能因为一两次事件就全盘否定一家公司,毕竟阿里云仍然是国内最顶尖的云服务商,阿里云身上的问题,其他云服务商同样存在,甚至更加严重,只是由于服务规模尚小,并未公开暴露出来而已。
但是,不得不说,阿里云最近确实比较烦啊。