企业数据库运维和管理的挑战
业务快速迭代,数据库故障频发
数据库是所有企业业务的基座,企业内的研发、测试、运营、运维等等人员每天都需要对数据库进行操作或者查询,但是使用数据库的人员对数据库的了解程度参差不齐,所以数据库的稳定性不断受到如下问题的挑战:
- 业务发布,产生了大量慢SQL;
- 业务大促,容量预估不足;
- 表结构或者索引设计错误;
- 未经Review的SQL或者表被发布到线上;
缺少数据支撑,问题排查靠“猜”
数据库的问题排查和性能优化一直都是数据库领域的专业问题,但是即使最专业的DBA在面对一些问题的时候,也往往耗费了很长时间,但是仍然无法定位到根因,主要的难点有三个:
- 获取信息难,问题诊断和性能优化都需要依赖于大量的系统数据,甚至是长期的历史数据,只有基于完备的信息才能给出准确的解法;
- 分析信息难,需要多年的经验才能给出准确的解法,也需要多样的场景才能覆盖比较全面的问题类型。经验与场景,一不好传承,二变化较快,三他人理解不易;
- 优化手段难,找出问题了,知道怎么办了,也并不意味着就能马上解决问题,甚至有些解法是要深入到数据库引擎层代码优化,这可不是一朝一夕就能做好。
管理成本高
随着云计算的普及,企业可以更为便捷的根据不同的业务类型,使用不同的数据库,或者将数据库部署在不同的环境中,多环境和多种数据库的管理的挑战也随之而来:
- 精通多种数据库的专业DBA是稀缺人才,招聘难;
- 管理部署在多种环境的多种数据库的难度大;
- 管理经验沉淀和传承的难度大。
数据库的安全风险大
随着数据价值的提升,企业的数据面临着越来越多的内部或者外部的攻击,数据泄漏、数据丢失等问题层出不穷。
全球重大数据泄漏事件几乎每月都有发生,小型泄漏事件更是不胜枚举。
- 未授权或者不可预期或者错误的数据库访问和使用
- 数据泄漏;
- 数据损坏;
- 黑客攻击;
- 软硬件bugs,导致数据异常;
- 误操作导致数据丢失。
我们的解决方案
数据库自治服务(简称DAS)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定、安全及高效。
该服务已经在阿里巴巴集团的所有的数据库上验证了2年+,截止到2020年4月:
- 自动优化了 4000万+ 的SQL
- 自动回收了 4 PB的空间
- 自动优化了20%的内存
数据库为什么需要自治?



典型使用场景——统一管理
DAS支持多种引擎和多种环境的数据库统一管理,零成本构建监控和告警平台。
- 统一管理:3分钟即可接入云上云下的所有数据库,实现统一监控、统一告警。
- 支持多种数据库:支持主流的关系型数据库、NoSQL、NewSQL。
- 支持多环境的数据库:支持阿里云云数据库、本地IDC自建数据库,ECS自建数据库、其他云厂商的数据库。
典型使用场景——批量管理
DAS提供企业级数据库管理服务,贴近业务管理视角,支持全局、应用组、实例的多种管理维度,并且提供了自定义大盘、批量管理、巡检等企业级能力,同时支持与企业原有数据库管理系统集成。
典型使用场景——智能诊断
- DAS基于机器学习和细粒度的监控数据,实现7 * 24小时的异常检测,相比传统的基于阈值的告警方式,能够更为及时的发现数据库的异常变化,并自动进行诊断、止损或者优化,保证数据库的稳定。
- DAS实现了诊断流程的闭环,优化效果可量化,从异常发现、根因分析、进行止损或优化、效果跟踪、回滚或沉淀知识库等方面实现诊断流程的闭环,确保数据库持续可用。
典型使用场景——安全审计
DAS提供高危SQL识别、SQL注入检测、新增访问来源识别、敏感数据访问发现等服务,快速识别数据库异常访问、拖库等行为,有效保障数据库安全。
*云技术在线提供DAS技术支持。