放之

网络与云安全架构设计总结

2024-03-16T16:00:00.000Z

0x00 前言

基于过去大部分时候都是直接在云上看安全问题，这次在上云做设计时对安全又有了一些新的感悟，因此记录下来，以供参考。其中不免有些经验和废话不得不说，只是因为遇到了糟糕设计，在解释过程中所体会到的。类似：“为什么正确的设计是正确”的这种废话。

全篇简单的将云上的安全设计分为以下五个部分：

网络及访问
身份及认证
数据及存储
应用及发布
检测及响应

并会先从上云开始介绍，之后关注到云上方案以及最后进行总结。

0x01 上云：勇做减法

有的企业是通过上云实现降本增效，有的是通过下云实现降本增效。一般来说，初创企业比较喜欢完全云化，大企业可能会做私有云。听老板说有某家企业买过AWS的全套私有化方案，实力甚为雄厚。经历过全面上云的目标挑战，也看到过单个AWS账户每月几百万美元的账单，甚至也看到过运维群里有人丢过上千万美元一月的截图。在上云之前，中小企业一般都是具备自己的机房。无论是自建还是托管。不过，我也发现了，即便上云这种大动筋骨的项目也有可能浮于表面。

我不能很好的判断上云的契机。但简单的讲一下观测到的问题。最初的设计往往是符合预期的，但日常的运营之后规则被逐渐打破，以至于一团糟。我在和网络总监沟通时，发现最初设计的网络架构实际是非常标准，符合业界主流设计。以网络视角来看，Border-Leaf架构从边缘到核心。业务视角分为外联区，业务区，开发区，管理区等等。在隔离上也分别使用独立的交换机和防火墙，以及独立的机柜和物理容错等等。我对网络没有他研究的深入，但作为金融行业的设计，这套网络架构已经是标准中的标准。然而在日常的运营之后，无论是流程的疏忽，临时起意的例外以及业务优先的“创新需求”。导致了办公系统在业务区，远程管理部分功能在业务区，开发区自治。除了这种业务逻辑和管理逻辑的混乱，间接也导致了安全Zone的划分混乱，同一个Zone中针对不同的业务又进行的多次的划分。当然出于金融系统的“稳健性”，以及一种又不是不能用.jpg的心态作用下，现状就这样维持下来了。不得不说，在这种情况下推倒上云是急需勇气与魄力的。但最终事情的走向会是什么结果，仍是未知的。而我本身对于系统稳定的理解和传统金融的理解完全不同。我认为系统的稳定不是一成不变，而是能够很好的适应变化，并仍能保持稳定。例如一个证书的更换属于配置管理的同时，在互联网企业以及互联网金融行业就是一次简单的变更。但对于传统金融，则会因为多种莫须有的罪名，让其完成各种验证。美其名曰为了系统的稳定，交易的稳定。我愿称之为《思维固化》。

同样的，对于金融企业的上云而言，技术的挑战往往是其次的。毕竟监管暧昧的沉默，不会主动拒绝，也不会主动点头。业务也不会真正关心IT是否和业务相适应，在又不是不能用的驱动下，政策和对策相互抵消，更不用说用户体验了。尤其在初步梳理现有DC中的安全设计之后，并不能保持乐观的态度。至此，终于理解了CTO所说的：“我们这里不是从0-1的过程，是要先从-1到0的过程”。心中也开始暗想：“莫非上云就是负负得正的过程吗？”

1. 削减替换

据说在公司曾经辉煌的时候，大把的尝试过各种“先进”的安全产品。各种EDR，NDR都买了安装，但实际情况却是缺乏运营乃至无法有效的使用。老板说预算去年就做好了，供应商说这个产品一定要怎么怎么，才能做的更好。而我更大的感触是：先要选择好的产品，之后再把产品用好。金融企业在安全运营上效仿了客户服务的这种三级结构，从Layer1的处理响应到Layer3的调研分析，但同时又因为传统的外包观念深入人心。十个Layer1的员工9个是外包，甚至10个都是外包。好的层级结构设计在不具备技术能力和平台时，仅靠所谓的运营流程就显得非常机械化。即没有知识的沉淀，还要同时约束供应商以及外包。疲于救火的Layer2以及工单反馈的Layer1，并不能真正的运营什么。我不知道那些大量咨询出身的甲方为什么会倾向这种，亦或是大家都被传统金融的运营框架所束缚了。总之，足够无用，足够糟糕。

面对如此多的无效产品，以及运营的无效。在构建SOC原型的设计中，就需要大量的削减。去掉无用的产品，合并功能重复的产品，例如去除掉一些AV、HIDS产品，合并到EDR；去掉WAF和Anti-DDOS直接合并到CDN产品中；去掉AD ProxyCA去建立Private PKI；去掉Proxy以及VPN，采用SASE进行替代；避免直接使用HSM，KMS直接进行加解密而使用EAAS类服务等。

这里之所以没有提到使用最新的产品，还因为要面临着国产化改造的目标。国产化的改造中需要的产品潜力巨大，但是用户体验糟糕透顶。一成不变的稳定怎么能遥遥领先？

2. 统一方案

金融企业的另一特色是面向业务的隔离。比如在某项监管政策下的业务A，需要在接入（专线）、网络、存储、服务器、机柜等层面进行单独隔离。这意味着建设成本和运营成本的上升。而在安全方面亦是沿用了这个特恶。从面向互联网的DMZ，到面向第三方的DMZ以及面向机构的DMZ，从面向内部用户的IAM到面向供应商的IAM以及面向测试环境的IAM到面向审计的Splunk、面向SOC的Splunk等。除此之外的不合理还有测试环境暴露到公网，内部域名用于外部服务，提供互联网服务就把节点搬到DMZ等等。这些对隔离的盲目信任导致了运营过程中出现的各种例外，同时思维也逐步固化到边界安全中——使用隔离就足够安全！！使用IP白名单就是安全！！（错误示例）。

在上云的契机下，理想情况是可以将不合理的地方进行优化。从对系统的标准化到统一解决方案。例如之前文章中讲到过很多次对系统的HA，访问，端口，协议，日志监控的标准化，以及整个系统的内外网访问控制，域名解析，DNS服务器等等。只有从系统的标准化到架构的标准化才有可能去实现统一方案。例如合并DMZ构建统一的流量入口，也不要觉得使用HTTP协议的专线接入方案一定比使用HTTPS协议的公网API访问；针对非特殊业务的隔离需求外统一使用网络层面的逻辑隔离，对业务进行网络层面的物理隔离和逻辑隔离都无法阻拦应用层面的攻击。没有必要因为防止应用层面的攻击去物理隔离网络，更多的是需要提高检测能力和响应能力；针对加密即服务的调用，是全部PKCS11的方式和REST API方式并无区别，都需要关注在对密钥索引访问时的认证和权限；针对所有的外部暴露服务，通过Proxy进行暴露，而非直接丢到DMZ。Proxy类的产品类型固定，漏洞更新及时，而暴露在DMZ的各种业务产品则无法有效的收拢攻击面。除此之外还有统一的密钥管理服务，日志收集方案，堡垒机管理方案等等，诸如此类，不胜枚举。

在这个过程中，还涉及到对产品的选型。无论是使用CSP所提供的安全产品还是使用单独部署的安全产品，在方案设计上都需要尽可能满足架构稳定，易于运营的目标。对于同一个解决方案不建议采用不同的产品。这种混合产品组成的“统一方案”是虚假的，应尽可能覆盖产品选型，业务场景，系统架构上三个层面。以密钥管理方案为例，需要一种能在云上和云下提供加解密服务的EAAS产品，并且能够保持根密钥的安全。虽然支持多样性是一件好事，但是实际运营的过程没有人愿意维护一套阿里云的KMS，DC维护一套Cyberark，应用在K8S选型里用了Hashicorp Vault。更好的做法是通过一套产品在不同区域的部署对不同的服务端点统一提供服务。类似的，服务器的CLI登录也不需要用阿里云的运维安全中心提供服务器登录功能，DC内并存着齐治堡垒机和Cyberark。还有一些业务上对SAAS产品的采购选型，也应该尽量满足多云以及混合云模式下的运营场景。

我在这篇章里介绍遇到的种种问题，并不是为了抱怨怎么样一个现状。而是希望通过发现问题解决问题的思路去改善体验。我一向不认为承认失败是可耻，然而理想总和现实差距甚远。无论是业务优先还是安全是企业全体的责任，这些理念大概率只留于了表面的宣传与认同，实际的改善需要参与者的信任与真诚（或许某一天会认清现实，改成需要利益驱动）。

0x02 云上：避免绝对

对于上云和云上的解决方案，没有什么是绝对的。如果每一个参与的架构师都抱着绝对A，绝对B的思路，那做出来的云上设计一定是草台中的草台。设计需要平衡，架构即是决策。不怕草包，只怕不听劝的草包。

没有哪朵云是最好的（AWS和Azure的国际版做的都很不错，但是政策要求下的版本————世纪互联和光环新网运营的云不会是最先选择的。）
没有哪个方案是必须的（LB放在WAF前或后亦或是使用具备抗D和WAF特性的CDN都是可以接受的，VPN还是SASE也都可以使用）
没有什么是绝对安全的（一边是加上白名单和拉上专线，一边是纵深防御，两类极端也都不能保证做到绝对安全）

我把开篇所说的五个部分制作成了脑图，并在后续以一个假想的上云场景来设计云上的安全：

把办公系统从DC业务区迁移出来；
把业务系统进行内外隔离；
将部分生产环境迁移上云；

1. 平台与访问

网络和身份是访问数据及应用的基础，这里将其主要分为了两部分，一部分是访问时的网络（途径）和身份，一部分是平台里的应用和数据。

针对基础设施的设计，首先要从基础的隔离原则进行考虑，逻辑层面需要关注域名，证书，端点，解析等方面，从物理隔离层面还需要考虑交换机，路由器，机柜服务器等。

对于从隔离出发作出的设计之后，需要从安全Zone的角度罗列Zone的列表以及可实施的安全控制列表。例如：抗D，WAF，FW，流量分析等等。同时对于云上多租户模式，凡是生产账号下创建的VPC都可以被视为HRZ区域。如果是只有一个云账户，则需要按照业务的划分将对应的VPC按照安全Zone进行mapping，同时针对Zone间部署安全控制。例如通过云上防火墙作用于VPC，实现VPC间的访问控制，通过安全组作用于弹性网卡，实现实例层面的访问控制等等。当然还需要设置默认的Zone间访问规则，包含协议，端口等。以此实现默认的Zone间安全等级。允许低等级区域的数据向高等级区域流动，但不允许两个同等级的安全区域默认流动。例如Region A和Region B之间的HRZ区域默认可以互相访问。数据的同步应该通过DB层面进行。

这里只是简单的罗列了几个Zone（你需要按照自己的实际需要设计zone，并去实现对应的隔离）。之后开始考虑从控制平面到数据平面的访问：以SASE为代表的产品可以通过在本地部署Agent分离终端对互联网页面的访问流量，并在远程办公区实现对云Console以及其他已购SAAS产品的访问分离。

尤其是针对业务的后台管理系统，应当尽量的避免从办公区域直接访问，至少也应该通过类似Cyberark或AVD类产品进行管理。如果有资源的话应该去设计零信任架构，通过策略引擎和访问引擎完全屏蔽用户对后端实际服务的感知。除了用户对服务访问时的零信任，还有应用与应用之间的零信任，对于微服务最常见的模式就是基于K8S+Istio的形式，通过proxy和证书完成服务间的权限控制。

至此这里提到的都是网络与云相关的安全设计，针对主机，应用等等个人感受实际与传统DC并无大的差别。甚至网络，只是产品的选型以及设计理念带来的变化。

2. 设计与运营

前面讲的这些所谓设计，实际落地后统统都离不开运营。甚至都不到落地的阶段就出现了比较悖论的事情。因为设计决定了运营的方式，但实际情况却是运营的能力影响着设计。例如没有DevOps怎么去谈DevSecOps的设计，没有标准化的系统何谈数据化运营？林林总总，暂不叙述了，写累了。这篇博客都快用了两个月时间，但就是收不下尾（要吐了），所以先不扩展了。

当然也开始体验到四方轮子在大草原上狂奔的感觉。例如世纪互联运营的M365不支持SSO，只能通过OAuth的Client ID/Secret ID进行配置，但配置后的应用程序又只能跳转到.com的Global站进行认证。简直是牛头不对马嘴。这种运营现象就是因为在架构设计之初没能完全识别到运营中的风险。

3. 以阿里云为例

这里以阿里云为例，简单搭建了以DCDN（实际因为未备案被封掉了）到GTM，之后指向两个region的四个可用区SLB进行流量调度，并对SLB均开启了WAF3.0功能，其中SLB作为ACK的ingress，对外路由服务。左侧的虚线框均是需要对外暴露的，通过GTM区分业务流量，SLB对外暴露服务，API Gateway区分应用流量，除此之外均无直接对外暴露的。同时针对POC阶段限制仅允许办公网段访问ECS类终端等。这个POC只能说是中规中矩，但实际部署过程中却遇到了不少问题。

在云上使用云厂商的安全产品固然方便，但其运营成本依旧非常高。而且不能够直接仅仅通过测试安全产品来验证最终效果，应当部署最小原型后的基础设施并部署业务进行测试。此处以阿里云为例，简单列举一下在安全产品使用过程中的用户体验。云安全中心美其名曰“中心”，实际上给租户的感觉是收费巨兽，倘若能够通过收费巨兽实现对云安全产品的统一管理倒也罢了。实际上DNS安全在云解析产品，TLS安全策略配置在SLB产品，同时如果需要各个安全产品吐到同一个SLS中，则需要提前规划好每一个logstore。除此之外，日志功能的开启对于大部分云产品几乎都是需要手动单独打开的。应用安全的同事也反馈了一些问题，这尚且是领先的云厂商-_-#。另外在沟通过程中，没有一次是看到阿里员工及时响应，更没有一次能准时参加线上会议。对此著名的麦克阿瑟上将表示：“在阿里云安全面前，我就是个新兵蛋子。”

0x03 总结及其他

在架构之美这本书里，有的前辈认为架构只是过程而非目的，有的认为架构即是平衡。对于传统安全架构设计而言，理念开始从边界到纵深防御，从隔离到零信任过渡。云在提供里弹性伸缩之后，安全架构的设计需要更多考虑云本身的特性完成安全控制的替代或统一。这里没有绝对，只有适合与否。而从-1到0的过程中，组织和支付网络的所带来的阻力远大于技术问题。

如果你遇到了张口闭口Totally Wrong的同事（前腾讯云售前架构，拉低了我对腾讯云的认知），请尽量远离。例如你提问两种方案的优劣,会得到：“你见哪家公司用过”的反问；如果你去解释了关于安全的实现，就会得到：“你说的都是概念，我讲的才是原理”这种结果。甚至有时会出现你不要问我，你回答我的问题。没有边界感，没有专业的安全知识但还要表现的比安全专家更加专业。

读书，学习，实践，总结。但是仍然讨厌傻逼。远离傻逼，远离不幸。

最近读了一本书《隐形VISA: 面向未来的混序组织》，非常推荐。最初是抱着学习业务的心态，但在阅读过程中发现对传统金融的桎梏描写的非常切实。尽管过了几十年，这个行业依旧没有大的变化。后面再整理下读书笔记，再接再厉吧。

当我们在谈安全默认时我们在谈什么

2024-01-04T16:00:00.000Z

安全默认（Security By Default）是一个老生常谈的话题。今天随便聊聊在安全架构设计中安全默认起到了什么作用。便于理解依旧会从网络、应用、数据几块去介绍，实际落地的时候会从具体场景考虑，例如主机的默认安全，邮件的默认安全，存储的默认安全等等。另外涉及物理机房时可能还需要考虑敏感业务的机柜隔离，专线隔离，机柜单独上锁等，这一块不在此赘述了（主要是不懂）。

1. 设计中的一些默认

安全默认可以简单看作一个从策略设计到工具实施过程（注意安全默认实际上对工具非常依赖）。在设计之初，会有各种针对网络、应用、数据的规划。这时候只是为了提供一个默认安全的愿景，而真正具备这个能力，是在说服各方达成一致并完成实施之后。以网络为例，假设已知的一些控制手段有DLP，PROXY，Firewall，WAF，IDS等等，那针对Zone如何设计分区，Zone间的访问涉及到的哪些安全控制，以及采用什么访问规则。一旦确定之后就形成了对网络层面基本的安全默认。即解放了安全运营人员次次开防火墙配置规则，也解放了员工为每个业务提工单申请，同时也减轻了后续规则审计的成本。下面逐个展开。

1.1 网络

对于网络来说，会首先关注Zone的业务属性，并由此去设计安全控制，这是贴近业务的一个过程。我们可以思考的点有：在DMZ到HRZ之间会使用哪些安全控制？从Internet访问DMZ时呢？以及从DMZ访问Internet时又分别经过哪些安全控制等等。而且一旦在默认形成之后，所有的例外流程都应该采用工单记录，在遵循变更管理的情况下进行配置。但有时候也不得不承认，即便是良好的设计，在一定程度的“例外”运营之下，也会变得面目全非。

除此之外，我还简单列了一下可能在设计时关注的点，并使其达到安全默认的效果。

应用默认只允许放在符合对应业务等级的Zone中
高等级数据所在的Zone不能流向存放低等级数据的Zone，数据默认只能流向更高等级的Zone
不同DC之间同样的Zone具备同样的安全控制，但不能默认无条件打通Zone
数据从生产网流向办公网环境时仅允许到达Confidential区
Zone A和Zone B之间访问默认不需要开通防火墙或者Zone X和Zone Y之间默认只允许哪些端口列表（e.g. 21，443）
所有传输协议默认使用具备TLS的版本，HTTP->HTTPS, LDAP->LDAPS等
内部传输默认采用PKI-Signed的证书, 外部采用Public CA Signed的证书
内外访问进行充分的隔离，一个有内外访问需求的服务需要设置不同的访问端点
所有对服务器的访问只能通过堡垒机所在的Zone

1.2 应用

对于应用来说，实际会更多的通过在SDLC去覆盖安全能力以实现安全默认和自动化。无论是架构评审的准入机制（应用必须经过CICD可能不一定是安全来拍板），以及发版的基本要求，在一定程度上都是实现了安全默认。

新的组件引入必须进行评估，不得使用未评估的组件
使用统一的依赖源，并对依赖源进行检查
采购的系统本地部署时需要替换统一内部组件
为全端集成相应的安全SDK
CICD必须经过SCA，SAST，IAST，Docker Image Scan，（往左还可以在本地Dev时进行扫描，往右拿到APK/APP包进行扫描）
高敏业务的应用存在的漏洞必须在X时间内修复
存在Y情况是不允许应用上线的
高敏业务的应用必须通过代码审计以及渗透测试
应用的敏感配置文件必须放在Vault里
应用在bootstrap时需要校验完整性
应用之间通过证书及mTLS进行认证
应用不允许直接暴露NodePort，仅允许通过LB或API Gateway暴露
凡是走CICD暴露的web服务，自动覆盖网络层面的安全能力。（WAF，Anti-DDOS）等等

1.3 数据

对于数据而言，属于灯下黑的状态。看似在设计上非常的关注对数据的保护，但在安全默认上实际一直都是一个被忽略的点。我们很多情况下都会关注到应用的代码扫描和网络的传输加密。但往往会忽略不同等级数据的流动。例如针对等级为X及以上的数据不能离开所在的Zone，且等级为X及以上的数据仅允许在xx情况下访问。

针对等级为X以上的数据不得进行存储
针对等级为X以上的数据不得进行分享
针对哪些等级的数据禁止本地存储（PC、U盘、移动介质等）
针对等级为X以上的数据默认进行加密，且必须使用在HSM内的密钥
不允许使用弱密码算法
针对等级为X及以上的仅在严格授权下才能访问
证书生成密钥生成需要在什么环境下
证书分发密钥分发需要使用什么工具
系统日志必须集成到日志中心

需要注意的是实际落地过程中不会以数据/应用/网络的形式，而是更多的考虑具体的系统以及场景。以主机安全举例，会在制作标准镜像时将配置好的安全工具打包进去，对于业务方并不会感知这些工具的存在。例如可把EDR，HIDS，证书链等放到主机镜像中，把DLP，SASE，UEM放到Laptop的镜像里。一旦镜像变成Instance时，那么默认的的安全防护也都启动了。再以应用代理为例，对于业务来说只是通过代理进行了出网访问，而实际过程入向流量经过了AV Scan，出向流量经过了DLP。当然有时候不是绝对的无感，可能需要提前和业务方同步好场景，并在上线之前完成生产中一些安全设备的配置。

2. 总结

在谈及应用和数据两块的安全默认时，文中一直在说”等级为X的数据“，“Y类型的业务”，是为了表示应用和数据的安全默认需要充分的综合业务场景，不同的业务属性X、Y会带来不同等级的安全控制。文中列举的一些设计规则也仅仅只是抛砖引玉，从设计的视角出发，至于产品的选型，实施运营等等还需要进一步考虑。例如需要把规则配置到Firewall，HIDS，SAST等工具中。另外也需要注意对安全设备、安全运营工程师本身也要纳入到已有的安全防御体系里，避免自身不够安全。例如审计业务的日志，也要审计安全自己的日志。分离业务系统的权限，也要分离安全系统的权限。 在实际做设计的时候一定要谨记贴近业务，服务于业务（而不是服务于同事）。实际上正是这些预置的条条框框形成了所谓的安全默认，如果没有这些条条框框，那就需要在每一次交互时去完成相应的校验，也就是Zero(No) Trust。同时也不难发现安全默认是为了使安全能力更加无感，降低对业务的侵入性。通过用空间换时间的方式来减少对业务的阻碍（提前铺好防御的设施，以便业务更快迭代），相反安全左移则是通过时间换空间的方式让安全部门能够更及早的参与进去（提前参与业务中去，以便尽早的把风险解决在上线之前，并在遇到威胁时有更多的反应空间，例如在线上运营时发现的漏洞规则通过waf阻断和通过代码审计并完成修复的效果是完全不一样的）。

仔细想想，为什么会有Security By Default的概念，接着出现Security By Design的概念（是不是好的Design才能去实现Security By Default），最后又要Shift To Left。因为发现Default在Runtime的效果不如在Architecture以及CICD等阶段。另外针对SAAS服务（厂商的Runtime），做评审和准入时，似乎看起来只能由SAAS厂商来控制。这个时候所谓的安全默认能做哪些事情？不妨思考一下企业还能做些什么能达到安全默认的效果，以后有空再写。

//1月6号早晨起来修改了一下，昨天实在是太困了，写的都要睡着了。

一年四季

2023-12-30T16:00:00.000Z

一年四季，日月轮转，人活多久，就有多少喜怒哀乐。过了春夏秋冬，过了阴晴圆缺，多少嗔痴癫狂，回头看时总是觉得人生犹如白驹过隙，只是一刹那罢了，是梦是幻犹未可知。

四季

立春

我曾一度纠结生肖的计算是以元旦、春节、立春之中哪个为准。直到在立春前第八天的时候，儿子出生了，我唯心的认为他是一只小老虎。同这个小老虎的第一个凝眸对视，我是略显慌张的，因为他的眼睛更加清澈，我又仿佛从他的眼眸中看到了自己。这种乍见的惊慌已经超越了初为人父的喜悦，仿佛独自一人身处闹市中央。我知道，从此在这个世界上，有一个小家伙更需要我的呵护了。我不晓得他未来会有什么成就，也不曾有什么奢望。

我为儿子取名行一，为此他的太爷还与我争吵。然而大家的固执往往抵不过我，于是我在他的脚印👣边写下了四则寄语，希望有朝一日他能发现。第一条是希望他能探索世界不断求知，其次是保持对生活的热爱，然后是勇于追求自由，最后是坚守真诚和善良。这四条给他也是给我自己。

处暑

我常常在夕阳下山之前到顶楼吹风。有一天细雨飘摇，我坐电梯到了顶楼。一抹彩霞映射在天地之间，浓墨重彩，份外有感觉。为此我决定从顶楼再往上爬，爬到楼顶的时候我遇到了一个学生。脸庞稚嫩，胡茬青涩。他说是高三的学生，过几天便要高考。下午拍完了毕业照，便从学校溜了回来。他说他不住在这一栋，是从进门那一栋走过来的。他的父亲在远方，母亲在这里伴读，上的是附近一座还不错的学校。

我和他一同站在楼顶的欣赏风景。他说他并不期待未来，但还是想要大学毕业以后挣够一千万。我笑着说，你可以的。我们天南地北的聊青春，聊未来，聊理想。有那么一瞬间我感觉自己也回到了当年。我说你还小，一切都有可能，他说你看着也不老。书中的故事穿越千年，我们也能一起背诵惟江上之清风，与山间之明月。他说是造物者之无尽藏也，我说吾与子之所共适。

重阳

虽然说有家人的地方就有家，但人在异乡的时候最容易在节日里感伤。我一直想成为一个文人，写写文字，过着旅居的生活，在世间感悟。我为此打算，但却不得不结束了近4年的远程工作。Shawn是我职场中遇到的第一个贵人，于我而言亦师亦友。我私下里称他为肖叔，从买房定居到结婚生子，我心里对他甚为感激。HK的风还没有吹上，我已经准备离职。不愿去HK的原因一方面是我牵挂自己的小家庭，更主要的是小家庭暂时也离不开我的牵挂。我不得不向现实妥协，在经历了三个月的面试之后，我开始计划重返上海。而离作家的梦，似乎也越来越遥远了。

人懂得思念和牵挂一定是经历过了成长。有人成长了同时也意味着有人还在父母的怀抱里。妻弟（大舅子）在大三开学的前一天放弃了学业，投笔从戎。我尊重每一个人的选择，也期望每个人都能勇敢承担自己的选择。要知道一个人的一辈子时光有限，一双眼睛也只能看到一个市面。有时候看的早了是种幸运，有时候可能知晓的就晚了也无力挽回。这个秋天充满了各种各样的别离和思念。

冬至

冬至后的第七天，我结束了2024年的最后一个工作日。上海的霾很重，苏州也是。许多人早早的就离开了公司，更多的人选择休假。每个人都开始享受着年末一丝丝不经意的悠闲。这个冬天于我来说略显萧瑟，倒不是因为两地奔波，苏州与上海的距离尚担不起离愁二字。工作之中的压力让我开始怀疑认真是否也是一个问题，见惯了正常设计的我只能表示对一切都再接再厉。我很感谢David给我的信任，他是我的Manager，我不愿意辜负这份信任，但我尚没办法像他那样处变不惊，这也许就是境界的差异。他曾说过自己已经过了educate别人的年纪，所以我很是感谢他仍能educate我。我也逐渐开始理解很多之前并不真正理解的东西，尤其是对Leadership有了更深的感悟。也知道了人心经不起揣测。无论是赤子之心，涉世未深，还是老谋深算，蓄意已久。一旦被有心人揣测，那简直比直视阳光更加的刺眼。

工作之中的欣喜少的可怜，苦中作乐四字毫不为过。我只能从生活中寻找一些乐趣。作为父亲，最大的乐趣可能就是观察儿子的言语。元旦前的一天我带儿子下来放烟火，他还只能远远看着，但对世界已经表现出了极大的好奇心。我喜欢在家里和妻子、儿子、妈妈一起吃饭，发呆，拌嘴的时光，不喜欢参加今年挣了多少的聚餐。我很平常，甚至平常的有些无趣。

2024年，是我第一次对未来感到了有一丝迷茫，而且是自己主动发现了这份迷茫。作为一个Senior Information Security Architect，我知道怎么在安全架构的设计中体现出安全设计的原则，但不敢确定指出问题的时候是不是自己也成为了问题；我知道怎么保持leadership和有效沟通，但不敢确定在“老师”的环境中是否适用；我知道怎么从一无所知的混沌状态里识别技术架构中的风险，但不敢确定动了谁的烟囱；我不知道在新的一年里是不是还会被一些“老师”质疑：“你懂不懂这个？你不够专业”，“你态度不够诚恳，你还想沟通吗？”。同井蛙语海，同夏虫语冰，真可谓是对牛弹琴。我知道说服别人接受设计是必要的，但平等对话是一切的基础。

寄语

我希望自己要有平静的耐力，能够努力的去热爱生活，勇于作出选择并接受成长。人都说一束光照进黑暗，光便成了一种罪恶。我知道我并非一束光，只是希望这一片冰心，不要付之东流。而那些所谓人设、单纯、鲁莽、正义、搞我、虚假、则只能说是心中有佛，则所见皆佛了。倘若有一天我真变的老于世故了，我希望自己不是犹如石头磨平了棱角，而是犹如明镜悟见了百态。

数据安全相关法规学习笔记

2023-08-14T16:00:00.000Z

我始终相信如果做好了安全设计，那么自然而然就可以通过所谓的合规检测。不过这么些年没见到过懂技术的合规人员，也没见过懂合规的技术人员。虽然参加过一些合规项目，但实际上也没精力去看所有细节。所以我决定自己梳理一下相关知识，以下为学习笔记。

1. 法规与标准

带着疑问学习是我的一个习惯。比方说，我不知道有哪些安全相关的法规，也不知道实际执行起来怎么依照？以及法规与技术标准的映射。所以我决定从法律的效力阶位来看。

1.1 法律效力阶位

（网图，来源未知）
法从效力阶位分为上位法、下位法和同位法，上位法高于下位法，后者不得与前者相抵触。同位法之间则具备同等效力，在各自的权限范围内施行。从这张网图不难看出宪法高于一切，宪法作为上位法由人大及人大常委会负责修改、监督、解释。之后是基于宪法制定的一般法律。在此之后是由国务院及下属部门制定的行政法规以及部门规章，同时地方政府和人大可以制定相应的地方性法规。

在这个过程中，宪法第七十八条规定了宪法具有最高的法律效力，一切法律、行政法规、地方性法规、自治条例和单行条例、规章都不得同宪法相抵触。 从这张脑图可以看到，除却各法之外，还有法律解释、有关法律问题和重大问题的决定、修改，废止的决定。

1.2 法规列表

国外的比较知名的有General Data Protection Regulation (GDPR)，个人感觉GDPR算的上是数据保护立法的分水岭了，国内对应的是数据安全法。除此之外UK有Data Protection Act 2018， Canda有Personal Information Protection and Electronic Documents Act (PIPEDA)，，California有California Consumer Privacy Act (CCPA)。

国内跟数据安全相关的法规见下图（其实刑法中也有一部分，并未列在此处）。

不难看出21年是个分水岭（其实后文的技术标准也是在21年22年前后大量形成的。），另外贵阳市作为大数据城市，也是率先在2017年推出了相应的法规，之后又在21年进行修订。而观察有的城市在09年制定的信息系统安全条例后至今没有修改，时过境迁。另外在这里，我其实没有列关于网信办的一些法规，因为网信办不是部委根据《立法法》来说是没有立法权的，但是国务院又曾在2014年授权过网信办全面负责全国互联网信息内容管理工作（通知），说明有可能使其作为直属行政机构。但是行政法又规定通知不具备有效的行政授权。这个可能需要法律专业的专家去分析了。不过有个槽点，在网信办官网找不到一个查询相关历史法规的地方。
这里附一张绿盟科技在2021年列的关于中国数据新秩序的法律地图。可以看出除了上面列的法律法规之外，在儿童个人信息领域以及密码领域等等也需要关注。

（图片来自绿盟）

1.3 技术标准

先看一下国标相关的技术要求

不难发现在2022年10月之后针对行业以及生物识别数据都制定了相应的数据安全要求，并且在今年的五一之后施行生效。包含了电信行业，医疗行业，物流行业，网约车，电商支付等。另外根据Tc260（信安标委）的统计来看，在最近几年迅速填补了许多标准的空白。但在另一方面又不禁引人思考，按照这种产出速度，是否有点过犹不及。

另外针对金融行业，除了国标，还有一系列的金融标准（以下简称金标）。不难看出在金融支付行业，由于行业特性，在早期就制定了相应的标准。从数据生命周期规范到数据分类分级指引，到网上银行系统，银行卡，支付终端，云计算环境等等都分别具备对应的标准规范。

2. 相关解读

主要参考DTT的解读，也搜了下PWC,EY，大同小异。其实在公众号里早期也转发了一些关于个保法的解读等等。不过这些解读并不涉及到技术框架，往往以立法的角度出发。网络安全法暂时略过，虽然网安法里面关对数据安全和个保都做了一定涉及，但不如单独看DSL和PIPL来的具体。

2.1 网络安全法（CSL）

略

2.2 数据安全法（DSL）

（图片来自德勤）

关注数据分级保护，风险评估和监测，应急处置，保护义务，人才培养，交易安全。
明确了数据定义：任何以电子或者其他方式对信息的记录
采用了属地原则：在中华人民共和国境内开展数据处理活动及其安全监管，适用本法
分级：提出了“国家核心数据”的概念，“实行更加严格的管理制度”，违反者将面临最高1000万人民币的罚款以及“暂停相关业务、停业整顿、吊销相关业务许可证或者吊销营业执照”的处罚，并有可能承担刑事责任。
评估：重要数据处理者必须“定期开展风险评估”及相应评估报告内容的具体要求，违反企业将面临最高200万人民币的罚款，相关个人最高20万人民币的罚款。
跨境：“其他数据处理者在中华人民共和国境内运营中收集和产生的重要数据的出境安全管理办法，由国家网信部门会同国务院有关部门制定”。违反企业将面临最高1000万人民币的罚款，相关个人最高100万人民币的罚款。违反跨境的企业将面临最高1000万人民币的罚款，相关个人最高100万人民币的罚款。明确了海外司法或执法机构对于中国境内数据的调取必须通过中国主管机关根据相应的国际条约，协定或平等互惠原则进行处理。违反企业将面临最高500万人民币的罚款，相关个人最高50万人民币的罚款

2.3 个人信息保护法（PIPL）

（图片来自德勤）

衔接CSL与DSL，把CSL中网络数据（电子数据）的定义延申区分出了个人信息属性。
采用了属地原则+属人原则。责任部门是网信部+国务院及地方政府有关部门，履职方式位询问，约谈，查询，现场勘察，设备检查。
数量达标应指定负责人（多少算达标？）
处罚：责令改正,没收违法所得,给予警告;拒不改正，并处一百万元以下罚款;对直接负责的主管人员和其他直接责任人员处一万元以上十万元以下罚款
个人具备数据主体权利，包含知情权（数据泄露也要告知）、决定权、查询、复制权、更正、补充权、要求解释权、删除权、已逝者权利。营销时应该提供不针对其个人特征的选项。
明确了要求了境外处理者在需在中国境内设立专门机构或指定代表人负责处理个人信息保护相关事务要求。境内储存，当向境外传输时需经过评估，需告知个人相关要素并取得同意。
明确了同意标准：同意需自愿、未成年人须获得监护人同意、用户有权撤回同意、处理者需要告知处理规则。（Oppo手机上体现的“蛮好”，但只要你撤回授权就不允许使用对应APP，和耍流氓也差不多）
明确了共同处理者的责任，委托处理者的责任，向第三方传输的责任。第三方仅能在原有目的、方式及种类范围内进行处理，有变更需重新获得同意。（不知道有几个第三方会遵守规矩？）
处理敏感信息的时候，针对敏感数据还要单独获取同意。
要求数据处理者具备：管理制度+操作流程+分级分类+加密／去标识化技术+合理权限+定期培训+应急预案+定期审计， 评估报告及处理记录需存三年

2.4 国内相关技术标准

这里挑选两个行业的数据安全要求作为示例：网络支付服务数据安全要求和快递物流服务数据安全要求。两个要求都是先进行具体行业的术语定义，然后给出行业的业务组成和交互示意图。之后分别列出基本要求以及从数据收集到存储使用等整个生命周期的要求。个人信息的采集主要遵守的内容为GB/T 35273-2020（信息安全技术个人信息安全规范）。值得一提的是，在系统权限部分要求指出了快递APP不应该在用户未使用寄递业务时申请位置权限。当然这也是大部分未曾实现的。
但在数据存储和传输上，两者除了对加密措施以及敏感信息保护之外，还有着明显差异。

网络支付要求：
- 不应存储用户银行卡磁道信息、银行卡芯片信息、卡片验证码、银行卡密码;
- 因业务需要存储用户银行卡有效期的,应取得用户和网络支付服务账务平台的授权;
- 应至少使用本地备份、异地备份及场外备份中的两种方式对网络支付服务数据进行备份；
- 应使用加密通道或数据加密的方式进行传输个人身份鉴别信息、可识别特定个人信息主体身份与资产状况的个人信息以及其他用于网络支付服务的关键信息；
- 应采用密码技术保护个人身份鉴别信息的安全性；
- 客户端和服务端的传输报文、日志等文件中不应包含明文用户鉴别信息、敏感个人信息。
快递行业要求：
- 应对智能服务终端采集的个人信息进行离线存储，保存期限宜小于30天；
- 应对智能服务终端中离线存储的个人信息及取件验证码进行加密；
- 应建立提供者自有智能服务终端的失效设备资产列表，并对失效设备存储的业务数据进行删除。
- 向其他个人信息处理者通过系统接口传输敏感个人信息时，应至少使用白名单(IP、域名等)方式进行控制，同时应使用数字签名、OAuth(开放授权)等方式对调用的信息系统进行鉴权；
- 通过互联网传输及线下途径传输用户个人身份信息、电话号码、地址等时，应在传输前进行数据加密，并使用安全通道进行传输。

另外针对寄递不涉及国际业务的不能将寄递用户的数据传递到境外，详细参考滴滴80亿罚款。但寄递行业没有针对数据出境记录作要求，而支付行业要求至少留存5年的记录。不过快递行业要求又补充了智能终端的管理要求，这是网络支付所不具备的。

3. 案例学习

最近不少企业、单位、高校因为数据安全事件被处罚，都是新闻可查的, 不知道是不是企业直接缴纳罚款了事，并未经过诉讼流程。但是在中国裁判文书网的检索中，并没有实际以DSL和PIPL进行判决的文书，仅有针对CSL的判决文书，不过部分的案例实际是个人信息保护相关，但是裁定是由民法典进行判决的。说明针对DSL，CSL和PIPL在实际审理过程中的应用仍然较少。处罚的案例，大家自己看文书吧，不在此赘述。

3.1 跨境传输

略

3.2 产品中的体现

点击一些主流的APP，都不难观察到关于隐私保护的一些声明，大家可以自行阅读。至于专业性，用户访问体验，则仁者见仁智者见智了。

微信: 我（右下角）->设置（最下面）
支付宝: 我的(右下角) -> 设置(右上角齿轮) -> 隐私
淘宝: 我的淘宝(右下角) -> 设置(右上角齿轮) -> 隐私 -> 隐私说明(下滑到底)
抖音: 我(右下角) -> 三（右上角）-> 设置（最下面） -> 关于(下滑到底)
B站: 我的(右下角) -> 设置(下滑到底) -> 隐私政策（下滑到底）
皮皮虾: 我的(右下角) -> 隐私设置

但是实际上，我并没有在这些APP里看到撤回信息收集的选项。类似以下这种。

虽然不同意就不让你用，但是更多的APP连撤回授权的按钮都没有。大环境如此，可见吃相难看以及个人信息过于廉价。除了在产品中的体现，生活中的案例也是不胜枚举，例如小区门禁识别作为唯一出入手段，但门禁识别设备显示了个人姓名，身份证号，居住地址。采集信息时使用微信进行。医院有时采用体检单的空白背面进行二次打印，但原体检页还包含着其他病人的身份信息及联系方式。更多的例子只要你观察一下，就发现比比皆是（否则也不会出现这么多倒卖个人信息的了）。

4. 总结

我一直没有去了解合规相关的知识，原因在于检测标准的不一致，检测流程不完善，参加过检企业的目的不在与合规，仅在于License。另外标准的制定往往来自行业内的技术专家，而实际参与检测的评审员往往缺乏技术背景。在这样的情况下怎么能做到真正的“合规”？但实际上，这些评审员又决定了License是否可以被获取到。所以作为过检方，只能省省力气，尊称对方一声：“老师，您看哪里还需要我补充的吗？”。除了评审员之外，企业的合规团队在过检过程中作为对接人，更像是一个PM，活跃在评审员和各个领域的接口人之间，拉会，总结。虽然往往你看一眼就知道这个条目是干什么的，但是不仅需要向合规专家解释一遍，还要再向评审专家解释一遍。

所以就有了这样一幅局面，行业技术专家写了标准，具备评审资格的机构招募并培训了评审员/专家，企业采购了取得某些资格的指定厂商的设备，企业内缺乏技术背景的合规专家凑在了一起。“让我们拉个会吧”。顺便把压力丢给了技术工程团队。技术工程团队往往并不担心标准的条条框框，二而是担心评审的解读。

合规检测本身是外部驱动的一种，通过来自行业和监管机构的施压，完善企业内部的安全建设。等保、UPDSS、CFA、UPDSS、诸如此类都是。但实际上在设计安全架构的时候，如果能有High Standard, 企业愿意出于对用户数据负责，维护业务信誉的角度出发而非证书和过检。则自然而然在设计上就能够满足大部分的合规要求。反之，也可以想想是不是有一些企业采购了安全产品，过了检，最后设备没插电。

只有做好了安全，合规就水到渠成了。标准委员会实际上也就这几年才开始增加标准的数量，在此之前的合规人员到底在干嘛？

5. 参考

安全运营中心（SOC）与集体智慧

2023-07-18T16:00:00.000Z

写于七月十九日，发布于七月二十五日

1. 运营与SOC

关于安全运营其实已经有很多的文章去写了，很多企业在多年前就或早或晚的进入了运营时代。得益于我自己经历过几次0-1的安全建设，本文且从团队和架构的角度回过头再看一看SOC的相关设计。经验有限，请运营的大佬们轻拍。

另外大家可以带着疑问去阅读后面的内容。比如你买了很多产品、软件、设备，有没有真正的用起来？什么时候需要成立/拆分出SOC团队了？安全平台工程师和安全运营工程师需不需要互相training？你定了很多运营指标，是不是真的能够反映运营质量？工程师写了几十上百条规则，有哪些被触发了？

1.1 团队协作

基本上安全团队在搭建完基础设施之后，就开始进入到运营阶段，随后运营团队规模逐渐扩大，安全负责人很快被各种各样的看板淹没。至于是否能够理解和衡量运营团队的质量，我们后面再说。先看一下SOC团队的大概样子，从响应流程上来说通常会有Tier 1到Tier 3。从职责上来看，大型的SOC team一般会负责监控运营，红蓝对抗，威胁智能，取证应急这几大块。至于Team够不够大，就要看SOC的Leader是Manager还是Director了。

从能力成熟度模型上CMM-SOC来说，一个可正常运营的SOC至少需要具备Level 2的相关特性。往往大厂的SOC已经在Level 3了（起码宣传上至少已经在Level 3 之上了，记得之前阿里某安全专家已经开始提出了数智化安全运营的概念。），并且具备7*24的oncall能力，也能和NOC联动处置一些问题。

至于协作流程，此处依旧采用上篇博客里的图。这里面的system一般是安全运维负责维护稳定性，平台工程师负责开发新的系统或者整合系统，数仓建设来自风控或者数据中心团队，安全运营需要事件流程，监控告警等等。以及与此对应的安全BP，作为接口人快速处理到业务条线上的问题。

当然这些取决于企业的组织架构，不同的组织架构配合起来的方式肯定不尽相同。总体来说都是有专门的团队维护平台及产品，让运营能够专注于自动化场景化的事件检测。当然也有的SOC团队可能只是个告警运营团队，那这种团队的可替代性就非常强，一般由甲方外包的乙方驻场。

1.2 数据平台

数据计算平台是运营过程中至关重要的，大部分安全运营工程师的工作都应该在这上面。通过对Data Sources进行Batch Ingestion并将其存储到Data Lake，现在云上的Blob Storage，都已经能够承担数据湖的角色，以AWS为例，可以用Redshift也可以用S3。之后对数据进行清洗，一般是在一个Pipeline内完成清洗，标准化以及验证。这里需要指出的是在标准化的过程中需要数据字典，能够将不同的字段统一mapping成预设字段（标准数据字典的建立也需耗精力）。

之后就可以写规则了，规则除了作用在各自单独的系统之外，最多的产出地就是在数据计算平台，后面也会讲一下衡量运营的指标。Spark配Groovy去写是OK的，Splunk自带的SPL也是OK的。当然这些大多是基于条件规则，如果说要采用一些机器学习的方法就需要另一个关键的过程——特征工程（话说实际除了商业产品自带的机器学习之外，我并没有在大厂之外看到能用机器学习/深度学习做入侵检测的）。特征工程简单的可以理解为一个多项式函数的系数集合。挖掘特征可以通过专家经验，也可以让神经网络自动去寻找。我已经有一段时间没关注过这一块了，翻了翻之前的特征工程笔记还是2018年的。最后通过对模型训练及验证(tarin & evaluate)后进行部署并对外提供API接口。一方面可以通过API消费模型，一方面可以完成可视化，以及完成自动化等。在数据计算平台这里还可以引入很多外部数据，例如购买的Threat Intelligence，目前Splunk Enterprise Security就支持类似的功能。不过需要注意TI是按查询次数收费的，可以适当的缓存名单数据24h内的重复查询。并提供给其他系统使用。（BTW：Virustotal的工程师嘲讽某步是盗用他们的数据）。

注：我对以Hadoop为底层实现数仓没有实际的架构经验，工作中也仅使用过ODPS、SLS和Splunk、Groovy、Spark。云上的方案只做过AWS和Azure的POC，并不清楚具体在生产环境的容量和性能表现。（理论上来说，云上只需要加大充值就可以实现具体的性能，架构本身不受影响）

1.3 运营质量

假设我们以数据驱动（data-driven）安全运营为原则，把自动化，标准化，场景化，可视化作为目标。（往往缺什么，越喜欢强调什么😓）

过程
我们用IPDRR模型来表示过程，并把安全运营可能涉及到的内容mapping进去。如图所示，安全运营在识别过程主要会做资产管理和风险评估（这个评估标准需要由治理或架构团队提供）。在防御过程会涉及到安全控制的实施，规则的开发等等，类似的在后续过程进行实时的监控告警，事件管理，灾难恢复等。

另外我们还可以换个视角，例如以Detect视角看IPDRR。Identify过程其实就是做Threat Modeling，Protect过程就要去做一些Rule Tuning的工作（设备和服务提供的职责由安全运维或安全平台组提供），以及等等。
指标
如何衡量运营的质量，需要有指标评估。在以上的过程，除了MTTA，MTTD，MTTR，还需要通过关注以下实体的指标去衡量SOC运营的质量。
可以看到这里有告警、事件、SOP、规则、Playbook等实体，这里我们关注除System以外的实体（System有另外的指标，这里仅关注SOC运营时的指标）。例如：Volume（总量、新增量）、Accuracy（T-P、 F-P、T-N、 F-N）、 Priority(P0事件 - PN事件)、 Cost（时间/开发时间，溯源时间等、人力）。
在这个过程可以考虑每个实体的准确率。例如告警里有多少正确的，Playbook有没有正确执行等等。各个的总量以及新增数量（一旦这些数据接入了数据平台，只需要洗出相应报表即可，具备日，周，月，季度视图。在汇报时，领导并不关注细节，甚至除了运营团队自身之外，其他团队都更关注质量而非过程）。除此之外，还需要关注伴生指标以及对立指标。例如考虑覆盖率的同时，需要考虑健康度作为伴生指标。否则你可能100%覆盖率，80%健康度（另外的20%可能由于CPU，MEM反复重启，或者无法正常执行进程等等），类似的培训完成率以及钓鱼中招率。对立指标有T-P以及F-P，即要看正确触发警报的实际问题的比例，也要看没有实际问题时触发的警报的比例。除此之外你一定还听过很多框架，例如在内部探讨SOC架构设计的时候。也曾听到过一些声音，说框架很多不便选择，比如SOC已经采用了ATT&CK框架。其实这里并不冲突。SOC采用ATT&CK衡量在数据平台覆盖检测场景，ATT&CK恰恰是作为场景化目标的一个参考框架。但这里就引出了一个新的问题，就是你参考ATT&CK覆盖了20个场景，上线了70条规则，真的有效吗？怎么衡量？在计算平台上触发检测还是把规则同步到每个System上执行？与此类似的还有采购了威胁情报。我们知道威胁情报可以提供domain, ip, url, cert, ja3, email, hash等IOC，那这些IOC也可以被应用到其他不同的系统中去，比如说SIEM、ASM、WAF等。这里需要新的一些衡量指标。比如场景被触发的数量，由威胁情报产生的告警数（命中率），这部分告警的准确率，覆盖在哪些场景上。
最后还需要一些统计学维度的指标，例如：Top10的告警来自哪些规则，分别触发的Playbook（以及执行了多少次），命中在KillChain的哪些阶段，命中了ATT&CK中的哪些场景，事件分别是什么类别，以及新增类型的事件哪些被转换成了SOP。以此来衡量SOC团队的运营质量。你需要把主要的威胁攻击防御自动化掉，以便投入更多的精力在高优先级事件中。

回到本节最开始说的几个目标，我们就可以挑选适当的指标去衡量场景化，自动化的进度了。另外不得不提一下微微一软家的产品在管理端下发一次配置，技术支持的标准回答往往是：生效时间在24h以上，取决于用户数量。但实际上有时是6h左右，有时候是则在24h以上。尤其是当你做了SOD之后，如果处理需要激活特权账户，那么在激活一次权限之后可能需要10分钟左右生效，有时甚至需要登入登出才能刷新看到对应的管理界面。

2. 集体智慧

最早了解到集体智慧（Collective Intelligence）这个词是来源于《集体智慧编程》这本书。但集体智慧这个词真的是让我感觉既陌生又熟悉。虽然听到过不少次，但实际又很少在现实中见到过。总结起来似乎是一方面由于个体水平不同导致不同程度的傲慢和偏见，另一方面团体协作也带来了一定程度的混乱。我相信每个企业都有一些“生不逢时”的工程师，一边认为自己是千里马，期待同伯乐来个相见恨晚，一边又懊悔公司没人能够慧眼识珠。但实际因集体智慧获得收益时，往往又忽略了平台的作用。那些工作未逢伯乐的同事，他们长期以来，逐渐建立了一层针对工作的情绪滤网，不断的负反馈（不加薪，不升职，不给项目，被challenge）让他们愈发抵触来自对立面的输入。即便在某个方向是专业的，也丧失了推广自己方案的主动性。这对于团队来说是不利的。因为提升个体智慧不一定能增益集体智慧，反之却使整体水平下降。

从四个方面去看，产生集体智慧的关键有信息共享、集体决策、沟通、创新。主要体现为协作与决策。而你的协作和决策只能基于你的可理解程度。这里就不得不提到另一个概念——可理解输入与可理解输出。因为集体智慧需要个体参与，信息共享和沟通正是集体协作的关键。可理解输入能够帮助个体主动学习提升自己，可理解输出可以帮助个体推广自己。

以SOC运营为例，毫无疑问SOC的成立与运转需要依赖大量的协作。内部需要在tier 1、tier 2、 tier 3同事之间协作，对外需要在风控、合规、数据等部门进行配合。不难发现从事件应急，事故复盘，汇报，写文档，培训等日常工作都需要大量的沟通和配合，几乎处处涉及到集体决策。同时又涉及到个体决策与集体决策的平衡点。我们大可以使用专家经验或者领导力（强硬派）进行决断，但也可以使用集体智慧。很多时候面临来自领导的决策，是不是能够用集体智慧去弥补个体智慧的不足？（你所在的集体中有极为突出的个人智慧吗？）。我们再次回到可理解输入输出的概念上，假如当Manager提出了个一个方案需要去实施的时候，你可能有一个更优的解决方案，但你不能上来就否定他的方案，或者告诉他不能做亦或是难度很大。如果对方没有经受过职业经理人的训练，此时他获得了不可理解输入，内心一定是极为抵触的。当你再次提出新方案的时候，就难免遇到一些阻碍。如果其中还涉及到一些知识是其尚未接触过的，那对于方案的推广来说将更加困难。你可以给出一些选择，让Manager去选择怎么样去实施，在选择过程中再逐渐倾向到新的解决方案，最后提供出来。这就是在个体智慧和集体智慧里博弈的一个简单例子。我的老板和其他部门负责人拉扯完之后经常跟我说：“你看这种拉扯是不是有理有据有节？多学习学习”。我在这个过程中发现的诀窍就是可理解输入与输出。因为你不能指望其他部门的人和你拥有相同的技术背景，你也不能指望相同部门的人和你有同样的技术深度。 但这种博弈过程，你的leadership告诉你需要推广最有利/适合的方案时，那就需要向集体提供可理解输出。除此之外还可以通过一些流程和机制确保这个过程的可行性，例如可以通过安全治理委员会来规避安全团队内部的不合理决策，通过业务方周会来规避部门间的不合理决策。

注：可理解输入指的是只获取i+1（恰好比你理解的多一点）的知识，它有三个条件：有趣、足量、可理解。当趣味度大于压力水平的时候，更多的知识可以通过个人的情绪滤网（affective filter），能够被有效的吸收。这个理论是来自Dr. Stephen的英语教学，反之你对外提供可理解输入时就是你的可理解输出。

3. 总结

其实企业对安全运营工程师的招聘要求一直以来是比较宽松的，因为大部分情况只需要先能够快速上手重复的任务即可。作为架构师，我跟踪了几个月SOC团队的工作状况后略有收获，也针对SOC团队做了一些设计，但是实际效果一般。同样的在更早之前，我曾认为架构团队的输出有限。当时认为是因为信息差和参与度不够，但即便后来成立了安全治理委员会也未能完全解决这个问题。现在我也将其归结于集体智慧工程的失败。因为参与只能解决信息差的问题，能不能理解且另说，作为第一步，还需要通过沟通与“创新”解决剩下的问题。另外由于执行过程往往在其他团队，还需要针对执行结果进行一定的验证。由此完成团队的协作及输出。

另外大厂搞自研不必瞧不起小厂，小厂也不必觉得大厂就多厉害；买商业产品的也不要觉得比开源厉害多少，用开源的也不用羡慕有预算采购的的；互联网大可不必吹嘘所谓技术，银行也不用接受互联网行业的忽悠。没有最好的，只有最适合的。有优势必有劣势，场景化定制度很高，那就不易于通用。买了E5，也不代表着能有定制化，不少东西依旧需要单独付费。

LLM使得集体智慧的结果更容易被每个人获取到，GPT对合约进行审计能够大幅提升效率。

参考内容：

团队与项目观察

2023-07-10T16:00:00.000Z

团队快到40个人了，除了SOC被我叉的比较多一些之外，自认为打辅助还算可以。技术方面也已经总结过数据安全架构的玩法了，今天再来总结一下关于项目管理与团队相关的经验。

1. 团队

这里聊一聊在组织架构之外形成的一些虚拟团队（你可能已经组建了相应的部门，但还是有些东西需要去做）。虚拟团队一般是因为在HC有限，或者团队已经到达一定规模，但仍需要进一步建设安全团队时成立的。

安全BP
成为业务线的接口人，每条业务线通过安全BP输出安全能力。在技术-运营-管理的三角模型中工作内容更倾向于运营。BP可以是一个虚拟角色，并组成虚拟团队。其中大部分成员应该自应用安全Team。需要对外建立一定的技术信誉，实现背书。内部可以由安全架构师对BP进行培训，并整合安全平台的能力，使其既要明白应用安全和SDLC的事情，也要知道Cloud & NetSec以及Security Platform的能力。通过BP使Policy在Release之后可以有效的起到约束作用。
安全治理委员会或信息安全委员会
虚拟团队，最开始去促进成立安全治理委员会的时候，是因为感觉到架构组的安全架构师参与度不够。后来发现安全治理委员会还能够评估来自管理层的不合理需求并被有效的拒绝掉。安全治理委员会成员来自安全架构组的架构师和各组的Team Leader以及Head Of Security以及再高一层的人员构成。在这个过程，Head作为组长起到负责方向把控的作用，架构师评估方案的合理性或者给出设计的方案。由所有成员共同表态完成一次会议讨论。并在之后由各个Owner安排相关人员完成具体任务。最近在审查一些厂商（非安全业务）的安全及合规能力时，发现大部分的企业在PR中确实会在CISO下面设立信息安全委员会，来完成相应的工作。
红队蓝队
成立虚拟团队完成红蓝对抗，用来检测防御能力并以工促防。还能有效的发掘到业务盲点。或者说灯下黑的东西。比如密码中包含公司名称类的弱口令。通过实施常规化的钓鱼演练和安全考试促进员工的安全意识。针对每次攻击后进行事件复盘，形成整改项。设计新的解决方案，并制定长期目标。（管理上的话就是一套一套的）

一个凝聚的有能力的团队是做事的开始，个人从0-1的过程固然有成就感，但团队的方式更加高效并使得个人具备归属感，团队具备荣誉。我总结了可能会导致团队变得内耗和效率低下的几个点，是需要避免的：

挑能干活的压榨
表现的很忙
信息差很大
只看结果（看结果是好事，但不能只看结果，也要关注过程，责任人）
工作氛围不匹配（外企内去卷，卷逼企业里装外企人）
不许讲话
把下面的活揽给自己做（推荐每个leader阅读《别让猴子跳回背上》）

会议是一个简单快速的沟通形式，可以解决信息差。但是大部分时候开会变得臃肿了。除了早会，周会，还有对内的对外的，月度的，季度的。让我想到一个笑话，一个老板在分公司招了个经理，在每天开会之后结果反倒不如之前。当然，这可能只是一个笑话。开会依旧是最快速的沟通方式，或者说电话，面对面的沟通是快速的。但每次开会前一定是要明确好主题，议程（quick call除外）。沟通一方面可以降低信息差，一方面可以提高合作效率。如果能够在一次会议上拍板的事情，就不要分两次去解决冲突。我们team现在每周有两次快速早会，时间在10-30分钟。安全治理委员会每周有一个placeholder，有议题就开，没有不开。内部team leader周会，以及同外部业务方负责人之间的周会在1h以内。

其他几个不举例子了，记住就行了。

2. 项目

最近对于项目上只有一个三方依赖是个比较大的问题点。

立项需要通过安全治理委员会评估，如果是安全架构组之外团队设计的方案需要通过架构的review。在立项后需要PM进行追踪，在每周周会上同步进度。而针对采购的产品，很容易出现一种情况。就是一旦产品出现问题，绝大部分时候只能去开case/ticket。但像微软这种大型企业，针对你的小小需求，或者小小的bug。快则三五个月，慢则一年以上才能解决。等解决了的时候，人还在不在都不敢确定了。对于这种情况，需要在方案设计之初尽量的暴露问题，并评估采购的产品是否符合基础要求。避免买回来之后发现某些地方不符合。现在公司内的产品采购，就是需要通过安全评估的。当然这些还都是对内的，对外的话哪些项目能够体现安全团队的价值。为业务方带来了什么收益，客户的满意度是什么样的？这些都是运营部分，运营往往开始于项目结束的时候。

运营是一个严肃的话题，但往往被不严肃的对待。我个人曾经比较讨厌运营，认为充满了重复和无用劳动。以为做了架构师之后会减少运营的工作量，但实际上即便做了架构也是离不开运营的。例如安全咨询，架构评审，方案推广（营销自己的方案）也都是运营。怎么推广自己的方案，让别人能够理解。确保采购合适的产品之前一定是需要说服相关利益方的以及如何建立起相应的技术背书等等。除此之外还有很多细节，例如买的产品有被用起来吗？用户使用姿势正确吗？客户满意吗？是去培养用户习惯，还是符合用户使用习惯？最最重要的是，当你根本没有那么多预算和人力的时候，问问自己，你的运营能做到什么程度。有哪些指标可以衡量？

3. 总结

在最初的时候，感到架构师对安全内部的参与度不够高，所以和Head of Security建议并成立了安全治理委员会，当时也是秉着提高内部信息透明度，降低信息差的初衷。后来发现即便如此，也不能够使安全架构师有效输出，因为提高信息透明度只是参与的第一部分，参与了不一定意味着有输出（划会的同学可能深有体会）。因此一定是需要使架构师能够有效的输出，将方案通过安全治理委员会输出出来给到各个team leader，使其能够落地。之后进行demo或者其他形式进行验收，确认符合要求后关闭项目。

很多时候我们挑到了一个问题点，就洋洋自得，认为别人的项目做的不好。实际上别人可能已经做了80%，而你只是发现了1%的问题。当然不是说指出问题不好，而是说万万不应该产生这种心理，更不应该在不了解那80%的情况下因为自己的一点点小小发现得意忘形。但这好像又是某些人的乐趣所在。

不会，就去学习。根据吉德林法则，把难题清清楚楚地写出来，便已经解决了一半。学习是没有那么难的。

一个团队内，不会还不学，动不动就抱怨问题，总是话分两块，你聊需求，他说实现难点，你聊技术，他说用户体验。以前不知道，可能自己在刚开始工作的头两年也有这个坏习惯，当然也可能因为位置和视角不一样。现在才发现，这种行为在Manager内心可能会显得非常不专业，也明白了企业内为什么大家都是很容易被替代的。

我又看了几遍，还是要坚持做好自己，经常反省。后面有空再总结一下SOC的文章。

数据安全架构总结及案例分享

2023-06-18T16:00:00.000Z

写于六月十九，发布于六月二十五日

0. 综述

之前也写过几篇关于数据安全的文章，有兴趣的可以翻下之前的博客。本文整理了一份脑图，不过不会详细介绍数据分类分级，也不会去讲全站TLS之类的安全项目，以及KMS、PKI等如何建设。更多的是关注在整体的联系。

整体来说是通过一些政策/规范去支撑技术实现，然后通过定期的安全教育和审计检查实际运营的状况。安全教育和企业安全文化看起来很虚，实际上在基础建设到一定程度之后就显得很重要。因为意识往往在第一防线，甚至超过了工具。脑袋里要保持什么数据可以传输到什么地方，什么数据不可以在什么地方保存。永远保持对外部输入信息的警惕。

数据分类分级是进行数据治理（数据治理是个话题复杂且实践更复杂的东西）的第一步，当然考虑到不同的业务、产品、基础设施。不同企业推进的方式也不一样，可能落在数据团队上，也可能是风控团队，也可能是内控团队，或者共同协作（数据治理的标准方式，不过注意要在最初就区分开不同团队的职责）。实际来说，安全团队推动分类分级的落地成本要远比想象的高，而输出分类分级政策可能是较为合适。通过对不同级别数据在整个生命周期里的约束，来保障数据安全。但常用的保障技术又绝非仅仅数据安全技术。实际在架构设计中，除了加密，令牌化，脱敏之外还需要考虑身份认证及授权，网络访问控制，日志监控和审计。换句话说，需要作用在基础设施的安全控制之上。只有划分好了不同等级的安全域，建立了网络隔离之后，才能把对应等级的数据放到对应的区域中去。受限访问的PCI存储和控制区域和非受限的PCI存储和控制的访问也是不同的。至于到对应区域内，应用服务和管理后台又是不同的访问方式，身份认证的要求，传输的要求等等。另外针对客户的端上数据存储也需要有对应规范。

下面简单的看一下办公网和生产网整体的数据安全架构设计。

1. 数据安全架构

1.1 办公网数据安全架构设计

本来是想展示原有架构怎么过渡到目标架构的。但后来一想实际情况各家又不一样，不如简单挑一下几个关键点说一说。

分离服务和控制平面
这个借鉴了微服务的术语，其实比较好理解，就是把资源生产和资源使用分开。比如AWS Console就是控制平面，创建的都是服务资源。不过这种划分并不尽然，在AWS EKS中，对EKS的访问又属于控制平面，对SVC的访问则属于服务资源。遵循的原则就是SOD及最小化权限原则。确保非必要的权限不会流转出去。
分级控制访问终端
企业内的办公终端除了Laptop，手机之外一般还会有虚拟桌面，AVD，VDI之类的，这一类一般称之为瘦终端。针对不同级别的终端在建立标准化的安全控制之外，仍需要分级控制。例如Mobile端可以访问Service，但不可以访问Portal，一些敏感系统需要在Laptop和Citrix之后。同样，针对不同用户群体也不相同，客服的终端永远不应该访问Bastion等等。
NACL
这个话题比较常见，后面在生产网的架构图里也会讨论。这里先聊办公网的，针对网络ACL，协议，端口这些都不做讨论。需要注意一点就是层级依赖导致的NACL传递失效以及目标系统对NACL的支持。比如某Cloud Service配置了SSO登录，SSO做了NACL限制了访问IP，但在登录Wiki成功之后，由于该系统本身没有配置NACL，导致Session可用的情况下避开了检测并能直接导出数据造成数据泄漏
条件访问、SSO与特权账户管理
不同的系统必须采用统一的IDP进行登录认证，并完成授权。并且能够针对登录行为通过网络位置、认证难度等条件进行限制，允许登录与否。同时针对特权账户进行单独管理。比如拆分特权账户和普通账户之后，再结合条件访问，仅当允许来自某某IP段的可信设备完成MFA之后，方允许登录。在此之外，还需要做相应的日志和监控。
检测及处置
运营模式会放到后文数据驱动的SOC安全架构里面去讲。关于检测来说，办公网的数据大多为非结构化数据，而且类型复杂。在用户权限降低，账户登录受限并仅能访问到合适的文件，安装必要的软件之后，仍需要检测出向的数据。一方面通过信息标签，设置默认控制手段，并敦促用户手动调整文件等级。一方面通过DLP工具，在端上和网络层进行检测。技术手段之外就是考核和培训了。办公网的数据安全主要集中在终端的管控上，可以参考之前写的浅谈终端安全与DLP治理, 而对于向终端用户提供服务的，属于Corp这一侧的东西后面暂时以Prod纬度去看（注意不是以Corp/Site纬度）

1.2 生产网数据安全架构设计

相对于办公网而言，生产网的数据结构良好，模式固定。生产网的数据安全治理远比办公网要轻松的多。

边界防护
需要关注访问控制与网络隔离，外部流量透过边界进来需要流量清洗，IDS，WAF等，办公网到生产网的边界隔离及控制。生产网内部不同区域的网络隔离等等。不过NACL这里，需要考虑四层和七层。以AWS EKS举例设置安全组时如果使用AWS CNI插件并且采用的是ENI，那么ENI绑定的IP发生变化时可以被检测到并自动调整，所以并不影响POD级别的安全组。不过如果使用的是Trunk模式，就安全组只能作用到Node级别。如果使用K8S的network policy则需要要求Pod内没有四层svc才行，否则也无法解决安全组响应IP的变化。
出网审计
其实也是边界的一部分，单独挑出来是因为出向流量着重被管控到。其实也是收拢数据传输通道之后，开辟受限的安全通道，并只允许针对固定的协议等。
密钥及加密
之前讲太多了，不讲了。一是密钥的价值等同于数据的价值，二是注重根信任的传递，不要使用自创的加密算法。看了一些“复杂的”自创加密算法，简直头大。建议采用被批准的加密算法，通过根信任传递去创建密钥。不过需要量力而行，考虑到预算，毕竟HSM和公签的证书都不便宜。
备份及恢复
小到数据库的快照，大到DR中心的建立，备份的恢复算是最后一道防线了。是通过同步实现备份，还是通过快照备份？如何对快照加密？对备份的访问控制？谁有权限进行恢复，备份的完整性等等。
检测及处置
这部分放到了SOC的架构中，见下文

这里ServeMesh内部细分的话还有一张单独的架构图，暂时不讲。另外除了数据保护平台之外，还需要数据扫描平台，数据字典，元数据查询等工具。

1.3 数据驱动的SOC安全架构

之所以把这一块单独拎出来，是因为数据安全的事件运营其实是可以合并到SOC中去的，并做到Data-Driven。这里隐去了一部分细节，着重关注下SOC的Workflow。数据安全事件的检测和处置也只是其中一种，原理类似。

采购或自研的系统或者产品完成标准化的系统能力之后，通过对不同场景的运营并针对具体工具形成SOP，并由此切入自动化运营，而具体playbook的执行又是作用于相应的系统之上。在这个过程中，完成了运营的第一阶段，而数据驱动就是以此为基础，将各种数据汇集处理之后进行检测等等，以此产生新的告警和事件，并触发相应的SOP。而针对整个运营质量，则以可视化看板为主。告警的误报率，部署的覆盖率，平均响应的时间，场景的触发等等。

还是要吐槽一下，搞运营不是搞话术，东扯西拉的。水平不够就要学，不能瞎逼逼。另一方面，没有经验的Leader也无法有效识别输出的质量。

还有一个老生常谈的话题，就是运营-技术-管理，做一件事，尤其是运营（运营去处置，架构去设计等等）一定需要体现政策，流程，工具的结合作用。要有政策支持，标准化的流程，以及平台或工具实现。无论是架构设计还是安全咨询等等，最后都要进入常态化运营阶段的。野路子另说，野路子太野了。举例来说，没有Policy约束的话，日志应该跨云怎么办，能不能跨？

另外时常看到有人无法区分政策规范流程的，这里我简单画了个图

另外定Policy的时候需要考虑到是为了落地适应现状，还是说为了引导现状的改变。如果只是为了适应现状，具备某个Policy，以便通过某些检测。那就变成了，我已经有了某些合乎标准/或不合乎标准的东西存在，然后把这些东西放在文档里。检测的时候我们有了这个Policy，只是政策的颗粒度不够细，所以“后面会修改”。当然更多的时候可能只是你有这个Policy就行了，内容甚至都没有人看。另一种是，通过Policy支撑技术约束落地，即便现有的基础设施或者应用不符合，后续也会向这个方向过渡。这是很重要的两种区别，前者并非毫无意义，但这种阶段性的折腾往往不能改变什么现状。（在过检前补写过各种SOP和Policy的人应该理解我的意思。）

2. 数据安全架构案例

从过去一年里精选里一些数据安全相关的架构设计案例。出于篇幅原因不能每个都展开和分析，仅作分享。你能想到哪些细节？

3. 总结

通过以上可以看到在这些控制措施中并非仅仅只关注数据安全的技术手段，还会考虑到安全培训，日志监控等等。另外考虑到数据生命周期，还需要把相关技术应用到不同阶段。以及针对技术的bypass，例如针对文件的删除，是wipe，purge还是destroy？曾有人认为使用Serverless即可避免应用层之外的漏洞，类似的有了MFA就能避免权限问题，密码复杂度达到一定程度就是足够安全的。但有时候我们是不是想的太简单了？

企业内的IT基本环境可区分为 IDC（On-Prem） , Cloud（Serverless， IAAS，PAAS，SAAS）, SAAS。从IDC到Cloud到SAAS过程中，Self-Managed的东西越来越少（可以查看这张图）。换个视角说可能有更多的精力/资源投入对Data的控制中。但实际情况却是恰恰相反。在IAAS到SAAS的过程中，企业对自己数据的管理手段越来越少，即便SAAS服务提供商受GDPR约束，也无法提供完整的数据管理功能给到客户。因为厂商在提供SAAS服务的过程中，对用户来说虽然是屏蔽了底层的控制行为，但实际的数据还是存储在Data Center。那么如果需要开放这部分能力给到客户，就会带来很高的成本。作为甲方，更希望能够获取对数据的完整控制能力，而不是仅仅关注数据防泄漏上。只有获取了完整的控制能力，才能处理数据流动所产生的相关问题。我看到大部分的文章，一谈数据安全，就是分类分级，生命周期管理，数据防泄漏三大块话题。至于密钥加密，架构设计，日志监控等，则在数据安全中提到的很少，且不能因为云化过程基础设施被屏蔽而忽视基础设施的重要性。

有兴趣的同学可以阅读下之前写的关于数据安全的一些文章。

系统与架构

2023-06-11T16:00:00.000Z

写于六月十二，发布于六月十六日
结构良好的创造活动要优先于毫无结构的创造活动 ——《系统架构：复杂系统的产品设计与开发》
写在前面，最近生活和工作的节奏都十分紧凑，在技术方面也已瓶颈了一阵时间。于是只能寄希望于一边总结案例，一边阅读书籍。虽然收获甚微，但还是简单记录一下。本文主要总结自《系统架构：复杂系统的产品设计与开发》。不过遗憾的是，没经验的看不懂，有经验的可能用不上。

在开始之前，我们先了解一下什么是系统。简单来说：系统是一组实体和实体关系的集合，其功能的涌现（emergence）大于各自功能（function）之和。

系统中的实体关系主要分为功能关系和形式关系。功能关系有时被称为交互(interaction)关系, 形式关系有时被称为结构(structure)关系。需要注意的是，功能关系一般情况下需要以形式关系为前提。
系统在功能涌现之外，还会涌现出其他特性, 例如可靠性(reliability)、可维护性(maintainability)、可操作性(operability)、安全性(security)、性能（performance）等特性，而针对意外的涌现物，常常被称之为紧急状况（emergency）。

其中由于区分维度的不同，系统的形式也就不同，例如某个产品可以是一个系统（注意，有些事物只是产品而不是系统，有些事物是系统而不是产品），比如DLP和UEM都是单独的系统，但放在办公网安全里，当其整体被看作是一个系统时，DLP和UEM又成了一个模块/组件。物是如此，人也如此，一个人有五脏六腑，是一个系统。对应到一个团队内，整个团队也是一个系统。

另外上文中提到的意外涌现物实际情况分为两种，一种是预期的良好涌现物未能出现，另一种是意外的不良涌现物出现了。而这两种都会导致系统故障。

对涌现物的理解，正是系统思维的主要目标。只有通过努力了解并预测涌现物以及涌现物对系统的作用，才能去掌握系统。预测涌现物通常有三种方式，分别是：

先例(precedent)，即根据经验进行。
试验(experiment)，即通过组合去验证假设，例如螺旋式开发。
建模(modeling)，即通过数据计算完成设计，例如集成电路开发

在架构工作中，应当尽量避免纯粹的依赖先例经验，而是需要通过对案例的经验抽象，形成规范/策略/SOP，以供后续建模，最后逐渐过渡向建模的方式去处理日常任务。例如架构评审中，部分是需要依赖经验进行，部分需要多种POC（试验），但实际上，更需要的是能够以建模方式针对架构设计结果给出控制和追踪，例如云上系统的网络架构，一旦绘制完成后，就能够针对云厂商的IAAS产品特性给出行业标准控制，也能根据自定义规范策略去识别其他问题（e.g. 自定义网络安全域）。

如果一个系统即无先例，又无法试验，也不能可靠建模怎么办？在这种情况下，更多就是靠判断力去推理了，不过这仍需要尽可能的寻找支撑，然后再去推理涌现的功能，亦或是采用不完备的建模。你可以通过自顶向下（top-down）或者自底向上（bottom-upde）,由外向内（ outer-in）的方式进行思考。当然，这里所讨论的都是局限在系统思维的范畴。如果有成本试错，创新思维也未尝不是一场热烈的浪漫。

那么当我们去分析系统时，需要搞懂哪些问题？

系统形式（是什么）与功能（能做什么）？
系统边界(system boundary)和所处的环境是什么？
系统边界位于系统和大环境之间，当系统内实体与系统外环境中的实体发生形式关系或功能关系时，这种关系会跨越外部接口。
系统中实体的形式与功能是什么？
系统中各个实体之间的关系以及位于边界处的关系，并确定这些关系的形式及功能（形式和功能是两大块，可以理解为是什么样的，可以做什么）
系统的涌现属性（实体的功能及功能性的互动）是什么？

当我们得到以上问题的答案时（形式与功能，实体与关系，抽象与涌现，边界与环境），还需要注意仍有两个目标（高级目标）尚未完成：

预测系统在某实体发生变化之后的情况
用部件合成整个系统

复杂的系统是由很多高度相关、高度互联或高度混杂的元素或实体所组成的。分解（decomposition）是处理复杂系统最常用的一种方式，不过分解的过程并不复杂，相反整合的过程中需要考虑更多，例如不同实体能否被适当的拼接到一起。除此之外体系（hierarchy）也是一种思考复杂系统的常用方法，以及在不同的hierarchy上进行decomposition。
例如 AWS Well-Architected Framework中的Six Pillars。而那些一经拆解就失去意义的东西，被称之为atomic part。在理解并管理复杂度方面，还有一些逻辑关系需要注意：1. 类-实例； 2. 特化-泛化； 3. 递归。

架构正是对系统中的实体及实体之间的关系所进行的抽象描述。换句话说，架构是对功能与形式之间的对应情况所做的分配，是对元素之间及元素同环境周边的关系所做定义（原文就tm也很拗口）。需要注意的是，形式和功能虽然都是系统的属性，但是架构并不是，它是形式与功能之间的映射。作为架构师，工作之一就是需要训练自己的思维，以便能够理解复杂的系统，最好能够快速理解复杂的系统，同时还能够创建易用易懂的系统。当然，易用不是简陋，是基于一定复杂度但不难懂。上文已经介绍过，实体关系主要为形式关系和功能关系。形式是已经实现或终将实现的东西，包含了所有实体，描述了系统是什么，如何承载某些功能。所以形式可以基本等于形式实体加上结构（结构关系主要分为空间/拓扑关系与连接关系, 除此之外还有地址关系、顺序关系、成员关系、所有权关系等）。这些形式关系可以通过依赖结构矩阵DSM（Dependency Structure Matrix）表示，也可以使用SysML和OPM（Object Process Methodology）表示，有兴趣也可以了解下UAM, MBSE。

系统架构的原则有涌现(Emergence)原则、整体(Holism)原则和聚焦(Focus)原则。在观察系统形式的过程中，采用整体原则十分有效。通过整体原则在观察系统及环境的过程中，可以将其分为整个产品系统(Whole product system 包含了产品/系统本身以及伴生系统（accompanying system），注意还需要去划分系统边界)，以及使用情景(Context)。对于软件系统，代码就是形式对象，软件的形式可以分解为模块和过程，继续拆分可以为单行的代码。整个产品系统则包括代码，编译器，CPU，OS等等。不过与物理系统的抽象稍有不同的地方在于信息化的形式总需要某种物理形式来存储或者编码。

相对于形式的存在，还有功能的活动。我们在系统表面所使用的功能，是从系统内各功能实体之间的交互及整个产品系统中涌现出来的。这也是设计系统的挑战所在。功能可以分解成过程和操作数两部分。操作数可以理解为一种对象，过程可以理解为作用于一个活多个对象的转换模式，通常过程涉及到操作数的创建、销毁和改变。要想做好架构，就一定是专注于对外功能的涌现。而对外展现的功能、性能又是从内部功能及关系中涌现出来的。对内部功能的分析除了前面提到过的先例、试验、建模三种方法，还可以通过逆向工程法、标准蓝图法、隐喻法实现。标准蓝图法指的是某些功能会内自然而然的形成了一系列内部功能，并且在许多年后依旧保持稳定。例如运送重物需要克服重力、克服阻力、使物体前行。制定决策需要收集信息、提出备选方案、提出规范标准用于决策，评估备选方案、确认最终方案等。在认清了内部的功能实体之后，还需要确认功能交互（过程之间相互交换或共享操作数），功能与功能交互一同构成了功能架构。具体可以通过PO矩阵进行分析（行是过程，列是操作数），PO矩阵也可以根据OPM图创建。如果一个系统能以适当的成本创造出较大的收益，那系统的价值就比较高，在这个过程中，就需要投入精力在具备高价值的操作数上。例如对于IDS，就是发现入侵行为并产生告警，对于XSOAR，就是能够使SOP自动化。

形式与功能，乃至功能交互，实际上都是静态的分析。当系统在运行时，还需要关注操作者，操作行为和操作成本。行为就是由功能以及功能相关状态变化情况所构成的序列，系统中的形式对象，应该按照这个顺序来执行各项功能。比如，登录登出。至于操作成本，是架构师在架构决策时需要慎重对待的问题，它由直接成本（研发成本）和间接成本（维护升级等）组成，另外操作成本决定了设计出来的系统是否具备竞争力。

以上的内容里，讨论了关于系统架构的形式、功能、环境、关系。最后还剩下关于“概念”以及从概念到架构的部分没有介绍。有时间的话回头再整理总结一下啊，推荐阅读原作可能效果更好。本来也准备了几个例子，但感觉文字内容可能已经需要消化一阵了，就暂时不放出来了。不知道最近是不是写作变得少了，居然写一篇博客也需要花上几天空闲时间，还是要时常写作才行。
2023年06月16日22点，落笔。

如何定制化ChatGPT

2023-04-04T16:00:00.000Z

0x01 前言

在Azure开始提供OpenAI服务之初，公司的大佬就申请开通了相应的资源。我也趁此试用了更多的场景，一边用Azure的OAI，一边用官方的，对比其中的差异。看看是不是像售前所说的那样，是同一套模型，同一套API。同时也体验了New Bing，Google Bard， Vicuna之类的模型。感觉对于深度学习这一块的知识已经有点跟不上了。只能在应用和产品化方面下下心思了。

0x02 正文

之所以想去做定制化的ChatGPT，一是希望能够实现稍微有点自主智能的Bot，不是去条件式回答，而是能够聚合语料库，知识库。例如：企业内的WIki，客服的案例库。过去都是将案例库设置条件访问，客户咨询按路径，加人工的方式。如果能够实现自助聚合这些知识，显然可以提升很大的效率。二是希望能够在垂直领域进行应用，就像昨晚和宇哥讨论的，他认为GPT也能在数据安全领域得到一定的应用。对此深表赞同。如果想去做类似这些应用就需要涉及到自定义的训练。以下为相关教程，参考及资源见文章最后部分。

1. 前置条件

python3.10
安装llama_index最新版 (pip install llama_index) ，如果已经安装请使用pip install --upgrade llama_index 进行升级
如果出现cannot import name 'BaseOutputParser' from 'langchain.schema' 报错，请使用pip install --upgrade langchain升级至最新版本即可
Azure账号并开通了Azure的OpenAI 资源，以下简称OAI
使用OAI上部署以下模型(注意deployment name不是model name，后面使用到的都是deployment name):
- GPT Model（开通默认就有gpt-35-turbo，gpt-4-32k需要申请）
- text-davinci-003
- text-embedding-ada-002
你自己的知识库（Knowledge Base）

2. 训练代码得到新的Index

import os
import openai
from langchain.llms import AzureOpenAI
from langchain.embeddings import OpenAIEmbeddings
from llama_index import LangchainEmbedding
from llama_index import (
    GPTSimpleVectorIndex,
    SimpleDirectoryReader, 
    LLMPredictor,
    PromptHelper,
    ServiceContext
)

openai.api_type = "azure"
openai.api_base = "https://xxxxxxxxx.openai.azure.com/"
openai.api_version = "2023-03-15-preview" 
os.environ["OPENAI_API_KEY"] = "xxxxx"
openai.api_key = os.getenv("OPENAI_API_KEY") # idiot !, if i don't use this ,it cannot be valiadtion

gptmodel = ""   # model: gpt4
embeddingmodel = "" # model : text-embedding-ada-002

train_dir = "./qa_datasets"  # high qulaity ciso conversations

llm = AzureOpenAI(deployment_name=gptmodel, model_kwargs={
    "api_key": openai.api_key,
    "api_base": openai.api_base,
    "api_type": openai.api_type,
    "api_version": openai.api_version,
})
llm_predictor = LLMPredictor(llm=llm)

embedding_llm = LangchainEmbedding(OpenAIEmbeddings(
    document_model_name=embeddingmodel,
    query_model_name=embeddingmodel
))

documents = SimpleDirectoryReader(train_dir).load_data()

max_input_size = 2048
# set number of output tokens
num_output = 1024
# set maximum chunk overlap
max_chunk_overlap = 20

prompt_helper = PromptHelper(max_input_size, num_output, max_chunk_overlap)

service_context = ServiceContext.from_defaults(
    llm_predictor=llm_predictor,
    embed_model=embedding_llm,
    prompt_helper=prompt_helper
)

index = GPTSimpleVectorIndex.from_documents(documents, service_context=service_context)
index.save_to_disk('ciso.index_hq_gpt4')
print("Save to localpath")

3. 使用新的index进行会话


import os
import json
import openai
from langchain.llms import AzureOpenAI
from langchain.embeddings import OpenAIEmbeddings
from llama_index import LangchainEmbedding
from llama_index import (
    GPTSimpleVectorIndex,
    SimpleDirectoryReader, 
    LLMPredictor,
    PromptHelper,
    ServiceContext
)

openai.api_type = "azure"
openai.api_base = "https://xxxxxxxx.openai.azure.com/"
openai.api_version = "2023-03-15-preview"
os.environ["OPENAI_API_KEY"] = "xxxxxxxx"
openai.api_key = os.getenv("OPENAI_API_KEY") 

gptmodel = ""  #gpt-4-32k not work, use text-davinci-003
embeddingmodel = "" #text-embedding-ada-002

llm = AzureOpenAI(deployment_name=gptmodel, model_kwargs={
    "api_key": openai.api_key,
    "api_base": openai.api_base,
    "api_type": openai.api_type,
    "api_version": openai.api_version,
})
llm_predictor = LLMPredictor(llm=llm)
embedding_llm = LangchainEmbedding(OpenAIEmbeddings(
    document_model_name=embeddingmodel,
    query_model_name=embeddingmodel
))
max_input_size = 500
# set number of output tokens
num_output = 48
# set maximum chunk overlap
max_chunk_overlap = 20

prompt_helper = PromptHelper(max_input_size, num_output, max_chunk_overlap)

service_context = ServiceContext.from_defaults(
    llm_predictor=llm_predictor,
    embed_model=embedding_llm,
    prompt_helper=prompt_helper
)

index = GPTSimpleVectorIndex.load_from_disk('./ciso.index_hq_gpt4',service_context=service_context)

query = 'what do you think should be the first thing to do as a ciso?'

print('query was:', query)
print('answer was:', answer)

4. 结果

我这里使用了47篇CISO的对话进行的训练，对比GPT3.5, GPT4，和copilothub, 结果如下：

GPT3.5

GPT 4

Copilothub(仅能提供5篇

自己训练的

当然在这里其实我开始怀疑时build executive team重要，还是identify risk重要了。不过对于自我启发而言，其实已经够用了。算是仁者见仁，智者见智吧。如果想要做的更好，肯定是需要更高质量的数据。如果能把某些群体的知识聚集到一起，那么对于帮助新人入门来说是非常有益的，让知识不再局限。

0x03 总结

前两天问一个英语专业的学生去翻译了一段译文，看了看效果和GPT35稍有差距，今天对比了下GPT4，发现差距就更大了。再次感到不学习就容易被淘汰。在未来，人人都应该能熟练掌握Prompt，有时候它可能用在生产环境不是那么严谨，但对于自我启发还是可以的。

针对Azure的OAI来说，由于官方限制了subscription内的实例，导致目前只能作为demo使用。部署的单个instance不能很好的承载较高的qps，（我没有进行压测，但是周末拿来做自动化翻译的时候，发现很快就报错了）。未来生产化的场景，一定是需要集群的。

相信AI的能力，同时作为安全工程师，也要尝试去发现安全问题。知道没有安全的系统。下图为GPT4在处理上帝模式的Prompt，可以看到已经失效了。试想在使用GPT的时候被插入“提权”（暂且称其为提权）的Prompt，输出一些暴恐数据。同时针对自有数据怎么样存储，怎么删除也是问题，毕竟现在模型不支持私有化（好像就算私有化，普通玩家算力也吃不消）。另外相关的平台也难免出现其他安全问题，比如上次ChatGPT官方聊天记录出错的问题。涉及到信息泄漏。以及这两天三星芯片事件也风风火火。这个在使用OAI的api时尤其明显（两周前遇到调用Completion时出现乱七八糟的回复）。类似的，早上看到Copilothgub平台，用起来体验还是蛮不错的。但是目前不能注销账户，仅支持设置Public的Bot也是有很大问题的，顺带测了下bypass模式，看起来背后依旧是3.5模型，没法过滤一些prompt。

最近把ChatGPT的很多玩法都测了一遍（完整列表见此处)，上周末也撸了个GPT版本的Code Review。当然毫无疑问，结果是取决于Prompt的质量的。这是做Code Review，Code Translation和Log Analysis的示例（该录屏为3.5模型）。
crdemo

0x04 资源

管理团队与项目

2023-03-18T16:00:00.000Z

0x01 前言

最近扮演了一段时间Head Of Security的黑脸（Head自身比较友善，但是团队确实需要往某些方向带一带），我自己心中知道这可能是一个得罪人的工作。不过也只能就事论事，不卑不亢。我知道为什么做这件事，所以时常反省，避免自以为是，相对来说算是比较清醒的了。在这段时间里，面对一个30余人的安全团队，我也确切体会到了负责人不容易的地方，从团队建设，项目管理，资源协调等等各方面。多多少少，有点总结。虽然比较忙，但还是简单记录一下，以供时常反思。

0x02 正文

日常任务不足以作为凸显团队工作内容。如果团队需要承担更大的职责，获取更多的资源，就需要去妥善管理内部的项目，并通过定期汇报获取Leadership的支持，同时也能为团队带来更多的利益。

1. 项目

项目是团队很重要的输出，做项目就意味着一段时间内需要将人力物力等资源放在某项事情上，获得一个结果并展示出来。项目管理上来说，我总结了以下几点：

敏捷交付与沟通
项目管理的核心是沟通，沟通的关键是学会聆听。敏捷交付的原则之一就是通过沟通去满足用户需求进行交付。对于敏捷交付可能并不完全适用安全团队。尤其是当安全团队在自研产品这一块能力缺陷的时候。不过我们依旧可以吸取敏捷交付的一些实践。例如每日站会，任何人都可以去主持；每周花1h去细化下一个迭代的细节；每两周一个交付；每月一次总结和汇报等。至于产品选型，解决方案交付依旧可以采用传统项目管理的方式。因为从Demo到POC，到采购，部署这一套流程是相对成熟和固定的。而无论是敏捷交付还是传统项目跟踪，沟通都是至关重要的。切记切记。
信息差与交付质量
提到复盘、闭环、拉齐（阿里黑话），碰碰、摩擦摩擦（腾讯黑话），有时候内心难免反感。但实际上沟通目的之一就是为了降低信息差，确保大家对于需求的理解是一致的（参考三个人依次双手搭在伙伴背上画图的视频）。否则业务需求在架构设计出现偏差，架构设计在选型时缺少功能覆盖，再到部署出现稳定性问题，一系列的失之毫厘，最终将谬之千里。我在几年前已深刻体验到。例如某项OKR的交付物是部署了X台安全产品，但实际上可能没有正确部署，或者功能也未启用。这种部署率的交付质量就堪忧。
跟踪与汇报/展示
无论是跟踪项目还是建立流程，最好都是要有工具去支撑的，能把流程自动化效果更佳。只有这样才能避免人说什么就是什么。阿里系那一套是自研的，就以M365举例吧。跟踪部分可以使用Planner去做为看板计划任务，并调度到邮件日程；员工也可以在自己的To Do里看到；使用Project去管理跟踪项目；还可以把Jira和Confluence内的相关文档附进去。汇报部分，团队内部的汇报可以以Excel较为方便，可以采用一页纸汇报的方式，对比风险与进度；对与Peer或者VP或非专业背景等汇报形式时可以采用PPT啦。对于外部展示，可以使用Sharepoint而非Wiki。当然这里面可能已有一些问题，就是工具多，但实际上各个部分的使用频率不一致，有的并不需要日常去更新）。同时也可以通过PowerAPP平台对一些流程自动化，例如使用Form收集风险并在Planner自动新增，同时对新增风险提供Review功能，通过Teams内的Approval流程确认风险是否成立。

2. 团队

参加了30多周的安全部同各业务VP的例会，也整理了一段时间团队内各组的周报，结合之前对安全部组织架构模式的一些理解，总结几点如下：

使用好OKR与KPI
设立团队的年度OKR，让每个Team Leader给出季度的OKR，并对齐年度OKR。无论是年度OKR还是季度OKR，都需要做Breakdown成Task，同时该升级为项目的做项目。使用Viva Goal记录，在OKR被Approval之后固定，在Check-In某项KR之前在系统上把各组OKR做好Alignment。而季度性的Review OKR的实现，使交付数字化，并作为KPI的一部分。OKR更多的用于帮助管理团队/个人的目标及交付，并不意味着有OKR就没有KPI，除非是一个没有KPI的公司（真香）。
设立虚拟角色或团队
受限于HC，或者专职人员的分散程度。通过设立虚拟角色或成立虚拟团队能够最大化现有资源。比如架构师作为某条业务线的BISO；Head、架构师、Team Leader构成安全治理委员会，用于对接内部需求；从基础安全、应用安全、安全运营团队抽出一些具备Pentest背景的同事组建红队等等。不过这也存在一些问题，双线汇报问题，虚拟组织话语权问题（没有KPI情况下如何进行约束）等。
区分项目与任务
参考上一节，不能把Project和Task混淆。Head更希望看到的是Project的更新，以及Event相关的，并不会十分关注BAU（Business-as-Usual）。
Leadership与协作
定好一个项目，确定去做，获得了领导层的支持。能走多远就看Leadership的支持了。这种情况，做项目是依赖组织架构的。同时，能做的多好（落地）就看Team Leader或者参与成员的Leadership了，能不能做下去，做的怎么样，遇到困难怎么办，都需要Leader在前面冲锋陷阵。无论你是不是组织架构上的manager，此时你都应该先把自己作为Leader来看待。当染这也需要一个有效的协作流程，协作其实也意味着划地盘，在谁的Scope内谁负责，边界上的事情怎么处理等等。
Training&Education
确保你的团队是专业的，但不能确保用户是有技术背景的。准备相应的Training或启动Education项目是有必要的。同样的，团队内部如果要打造复合型人才（加钱）也是需要Cross Training的。以及在某些演练之后通过Training完成闭环。

0x03 总结

在写这篇总结的时候，我又回顾了下19年写的——做Project Leader的一些经验，有些问题我仍旧思考了一下，记不起一些细节里，略微遗憾当时未曾记载下最初的看法。

聆听是一件非常重要的事情，学会聆听对沟通至关重要。

白驹过隙，愈发觉得时间珍贵，更珍贵的是在某段时光里的记忆。自为人父，至儿子呱呱坠地，其中欢喜与辛苦不尽可数。也体会到了，人生之事，不足为外人道也。多少事，都需毅力、恒心。换尿布也变得得心应手，拍嗝也顺手拈来。此篇正写于换完尿布之后。

谈谈安全设计中的纵深防御

2023-02-26T16:00:00.000Z

0x01 前言

最近很忙，压力很大。

0x02 正文

回到设计理念本身，原文是Defense in Depth，其实是只有深度概念的，我们今天就简单讨论一下什么算是纵深防御。

Defense in Depth的设计理念一般来说是作用在Layered Architecture上，个人理解没有分层架构就没有纵深防御 ，通过提供多层次的控制措施来缓解威胁。（区分场景对使用设计理念很重要。就像之前写Shift to left一样，这个理念是作用在正向建设过程，把防御能力前置。所以做事后建设的时候是不适合采用这个设计理念的。如果非要去使用，就显得有点牵强附会））

纵深防御设计的关注点一般需要关注四个方向：

系统
网络
权限
数据

下面开始看系统，这里的概念比较宽泛。可以理解为提供服务的一套软硬件支撑共同作为一个系统。对于系统来说，显然是分层架构的，从硬件到OS，再到虚拟化或者容器化，之后去运行相应的应用/进程等。假设我们的关注点从硬件开始，就需要TPM，TEE，Root Of Trust， Hardware Based Encryption等防御技术，其次OS层面考虑VMP，HIDS，EDR，AV等，乃至RASP，Security SDK等等都是应用层面可以做的事情，以及永远不要忘了log。如果现在我们算是完成了单体System的Defense in Depth，那么在微服务的场景里，多个单体系统连接到一起就构成了的服务平面。

既然已经构成了服务平面，对于终端用户来说，访问链路是从端开始经过CDN、Firewall、WAF、NIDS等等一系列的安全设备/工具。如果是自建的机房，就会可能出现下图左侧的情况。然后通过BGP或者其他协议实现旁路引流，选择感兴趣流量丢给安全设备，这样就意味着不同Rack上的机器流量都会经过防火墙进行检测，否则就会出现一种情况，用户在正常经过访问链路使用服务的同时，部署在不同安全域的微服务之间并没有安全检测。类似支付业务和钱包业务部署在不同VPC内，但是VPC之间的流量是没有经过检测的，也就意味着一旦边界失陷，就意味着无尽的横向移动。在这个过程中又涉及到OSI模型，如下右图所示。应用层流量到传输层，然后到网络层的过程。有一个transmit和receive的过程，虽然安全设备已经内嵌了不同Layer的防御措施，但架构师在设计的时候也需要关注到。

0x03 总结

纵深防御是做安全设计都会挂在嘴边的话，实际落地的质量有待考究。很多时候并不能意识到数据的价值，更别提安全设计的重要性了。

文章里没写权限和数据的Defense in Depth，因为不知道怎么样很好的用图来表述，就暂时就没画图了。权限和数据都比较抽象，权限维度的Defense In Depth的话，一般会去做SOD（权责分离），比如以Root Of Trust为例，根密钥一定是分片给到不同的人去持有。同样的针对密钥管理，Import和Assign给应用以及Enable/Disable的过程也要分给不同的Role。从管理流程上来说，运营操作员，管理员，分析师，审计员这种角色在系统中较为常见，其次是工具上的演变，从sms 2fa到app的mfa，使mfa也进入了defense in depth的领域。类似的还有从一次鉴权，到每次鉴权。数据也是，系统内部的逻辑处理，系统间的，DB内的。从hash以及签名，到传输的tls，到DB内的aes，binlog的加密同步等等。

回头理理再写吧，困了。前面本来看到最近招数据安全架构师的企业增加了，还想写点啥，最后也没有精力写完。

玩转安全架构：从安全治理到安全验证

2023-02-08T16:00:00.000Z

0x01 前言

瓶颈期总是让人苦恼。前些天准备继续翻译CISO访谈系列的文章。偶然读到一个CISO说他在企业里的十几年，在做架构的时候就做一件事，就是推广设计的框架（easy to use），用来帮助企业更安全。我想自己的工作已经遇到了这么久的瓶颈，倒不如总结下安全架构的玩法。权作自娱自乐。

0x02 正文

以下图为例，将Governance和Design作为Logical部分，Implementation和Verification作为Physical部分。在Logical部分由Governance引导Design的架构方向，在Physical部分，由Verification检测Implementation的项目质量。同时根据Physical的反馈去修正Logical的细节。那就先暂时把这个模型命名为LSP模型吧。（哈哈哈）

言归正传，我们来根据这个Model将每个过程涉及到的input和output简单列出来，详见下图。

食用注意：

你需要补充自己的Component作为Input和Output；
当使用Component时需要确认是否具备对应的Input；

具备顶层设计的安全治理多是自上而下的。这意味着得到了领导层的support，能获得到对应的resource（support <—> resource）。至于能够得到support，可能因为法律法规（legal部分），也可能因为面临业务上的风险或者有商誉问题（marketing&industry部分）等。
有了驱动之后，安全治理会在这个过程输出一定的Security Strategy、Policy、Standard等文档（这些输出应该具备一定的Education Program使员工能够理解。可以是培训，测试，游戏等形式）。
Strategy关注目标，Policy关注Rule 。一般来说Strategy还会将principle描述出来，然后细化各个领域关注哪几个点，达到什么程度。比如应用安全2023年要做供应链安全，数据安全要做Crypto Agility，云安全要做Security Policy As Code，运营做Automated Attack & Simulation，基础安全做Beyond Dev，IAM做啥等等。这些目标的制定取决于预算，企业内技术成熟度，风险评估，技术趋势，行业合规，最佳实践等等。这里有几个误区：不应该盲目的跟随技术趋势，而是要关注所在行业的趋势。 最佳实践一般是满足大部分场景，大多数企业的。找到你所在企业的最佳实践。把Well-Architecture 作为一种参考，不是信仰（技术）。
有了上述的各种策略、规范。就能够去做Security Design了，针对机房门禁，服务器，网络，存储，数据，身份管理，加密等给出Security Control（Security Control的内容主要来自这些1中的standard等作为输入，可以通过参考NIST，CIS等制定）。这里需要强调的是架构融合，安全应该做的是使安全控制去适应企业现有架构。技术栈，框架等等。如果这些系统的组件是由另一个系统（功能模块）提供的能力。此时就要去关注系统架构的设计，通过产品选型、技术评估等形成新的Security Solutions，怎么去logging & monitoring，以及integration等等。这里可以思考下security architecture design和security solution design的区别，架构设计更关注在整体结构和系统组成，解决方案更关注产品服务，功能特性等。后者帮助实现前者。同样的按照图中模型，当需要去做某件事的时候需要先看下依赖是否存在，即上一个输入是不是有效的。举例来说，要去做Security Infrastructure的时候，发现没有Security Architecture和Controls，即而发现没有Security Policy和Standard等。
相对于Governance和Design而言实施和验证都是能够提供有效反馈的两个环节。这两部分合为一节来写，经过installation、configuration、deployment实现了Security Infrastructure，然后去做education帮助员工/用户理解。针对这些实现，进行主动的审计和各种Review，工具来检查/验证是否和安全设计相符合。例如通过网络扫描确定是否提供了TLS endpoint，CSPM看是否启用了Encryption，主机扫描看是否本地存储了密钥等等。当然除此之外还需要持续的监控和测试等等。而来自Verification环节的输出，又可以直接体现在Security Design的输出上，同样的来自实施过程中的问题也可以直接修正Security Standard等。

到这里，应该知道可以怎么去做安全架构相关的工作了。至于怎么把图里的component填饱满，有深度就是另一回事了。比如拿你写的policy和别人写的policy比一比，看看你设计的架构和业界的解决方案就知道了。甚至不用比，也是心知肚明的。

0x03 总结

这里面基本上囊括了做企业安全、做安全架构的范围，虽然并不是所有工作都是安全架构师去做的。但基本都是安全架构师应该关注点。怎么样构建一个蓝图，制定一个目标，设计一个解决方案。在不同的技术领域，业务背景，部门之间给出一个交付。还有一点值得一提的是，需要确保每个阶段能够平稳过渡。找到GAP进行修复或者接受风险。例如从治理过程中反复的沟通获得leadership的support，到根据企业现状制定出相应的policy，再从Policy去做Security Design，衡量预算，项目周期等等。最终的目标都是希望能够持续交付，或者遵循了交付标准。那这些阶段之间的过渡过程中隐藏着各种变量，怎么尽可能维持项目风险保持在一定波动内是很考验功力的。

写在立春之前

2023-02-02T16:00:00.000Z

正月的时候，老婆生了儿子。亲朋好友都说简直同我小时候一模一样。对此老婆有点失落，说：“好像只是在我肚子里呆了40周，和我半点关系都没有”。而我倒不知道自己小时候什么样的，也没有照片可以参考。

作为父亲，没来由的多了些许的压力。一方面初为人父没有经验，看不得小孩子哭嚎。二是敏感的产妇以及自古以来的婆媳难题。几乎要开始人格分裂了。我甚至不知道自己是不是合格的父亲，丈夫，儿子。于此同时，我又觉得自己经历了很多，想着应该有所成长，但实际上发现似乎还很缺乏生活的磨练。我对社会的运转方式并不了解，生活也充满意外，意外中有惊喜也有惊吓，有精彩也有精神病。说到底我只能尽量要求自己去做个善良的人，包容与理解，出现问题及时改正。

作为打工人，从去年开始意识到理想的工作环境是一种奢侈品，职场上应该尽力的去在现实环境里输出。当然这就意味着很多时候可能会面临很多妥协，泄气自然也是有的，谁也不是铁人。有时候你可能知道据理力争也抵不过一句老板的话。毕竟从你踏入社会的锋芒毕露，棱角分明到变得能够包容一切，什么都能够理解。于是也愈发的迷茫，随波逐流。不过这也是考验自己的时候，很多事情的环境条件，起步都是一样的，最终做到的效果取决于你到底做了多少功课。会妥协，会泄气。那就适当的妥协，但不要泄气。资源并不充分，就看你自己的Leadership能走多远。不是说对的起工资，对的起领导，对的起业务，只是遵循自己的底线，对得起自己的这个职业。

谈及职业，我经常在博客里总结一些技术相关的文章。去年大概发布了十几篇，比2021年多了不少。之所以这样，恰恰是因为去年老婆怀孕，所以哪里也去不了，只能在家读书写字。时常的总结帮助我一步步成为安全架构师，一次次突破瓶颈。但这一次的瓶颈似乎又过去了几个月时间，没有看到突破的方向。我梳理，回顾…… 从技术到运营到架构，从基础安全到反入侵到数据安全，从一个人的安全部到BU安全到集团安全。这些经历，历历在目。但似乎离一线（打开配置，某个开关）远一些，心中就多了一分不安全的感觉。虽然我也愈发意识到设计的重要性，但怎么样去深入和精进架构，似乎又不在架构本身。熟练的应用模式，是需要在模式之外深入的去了解不同技术的适用与局限。还有衡量资源与各种管理，项目管理，情绪管理，怎么沟通，向上以及向下…… 或许这个瓶颈还会在持续一段时间，或者说这种工作状态也会持续一段时间。希望自己能够通过发现一种新的方式，去提高安全架构的落地能力。许个愿或者立个flag，希望今年能够成为自己心中的senior security architect。

明天立春，万物复苏，希望能够在新的一年里依旧能脚踏实地，知行合一。都说一年之计在于春，其实儿子的每个微笑都像是春风一般，实不曾料想几天的小娃娃，居然能够微笑。

流程设计与优化

2023-01-14T16:00:00.000Z

0x01 前言

屋外寒风呼啸，大雪飘飞。闲来无事，不如将上周末技术分享的部分内容引申为一篇博客，暂记于此。

0x02 正文

无论是正向建设还是反向建设，是由经验出发总结亦或立足于顶层设计。在从策略的制定到技术标准和运营流程的形成过程中，实现或者履行的最终参考往往就是流程的建立。无论是行政相关还是业务相关，例如人事部门管理的入离调转，财务部门管理的账务核算等流程，技术部门的发布变更等流程。这些设计最初经由文档落地并获得认可/批准，其后通过一定的平台形成流程约束后就实现了部分管理的需求。比较常见的平台有Jira、Servicenow之类的，可以很好的实现业务流程管理（BPM），在形式上的体现基本为ticket/工单。

下面简单介绍一下如何正向去设计和优化流程。（反向的话一般是从日常工作出发，将经验中的最佳实践按照一定模式固定下来的过程。很多场景化的SOP基本是反向建设的。）

需求分析与依赖管理

不要期待一次性搞定所有的需求。在设计流程时往往会出现来自各个部门的不同需求。同样在流程实现之后，依旧会遇到不同的场景和问题，由此形成了新的需求。而优化就依赖于这种持续的反馈，不断的发现问题解决问题。我们不能期待一次搞定所有的需求，但需要尽量的设计综合性解决方案，能够在实施过程中分阶段去覆盖不同的需求和问题点。而不是每解决一个问题点就需要设计一个方案，大量的临时方案会使得实际场景故障越来越多，系统越来越拉。
及时更新依赖项并使需求对齐。这取决于沟通面儿及频次，确保所有相关方都要沟通到位，以及需求的变化在一个方向上。例如不能出现既要信息透明又要信息隔离的需求，这种自相矛盾的既要又要是无法实现的。以架构评审举例，如果这个流程是从零开始建设的，就需要去考虑PMO对项目管理的需求，运维对资源管理的需求，安全对控制基线的需求，研发对迭代及发布的需求以及法务合规等各自需求。并且确保需求在一个大致的原则上。例如安全需要扫描卡发布以实现左移及默认安全，如果某些部门希望能够提高发布效率，尽量避免修复发布前的漏洞。那这种和最初设计相悖的地方就需要多次沟通，以达到一个共同认可的解决方式。

模式融合和系统实现

经验中总结出来的不同模式（Pattern）/模型（Model）构成了“所谓”的最佳实践（Best Practice），而长期的最佳实践逐渐形成了参考架构（Reference Architecture）。。这些Pattern可以理解为Rule Set，是由一条条的rule组成。而对于每个领域，都有各自的规律可循（Domain Model）。这些Pattern共同作用形成了System。对于软件架构而言，常见的Pattern有C/S、M/S、MVC、Pipeline、Broker、Plugin等等，对于安全来说Secxuiry， Security Domain Model有SABSA、O-ESA， STRIDE等，而对于企业架构，又有TOGAF等。在分析需求和解决问题的过程中就需要将不同领域的参考架构融合到一起，也可以理解为知识迁移的过程。可以参考上一篇博客里框架融合的部分。千万注意不要先入为主，需要对未知的领域进行多次的调研沟通。
系统实现指的是目标能够可拆解、实现过程是结构化的。系统实现的最终结果不一定是一个IT系统或者各种软件，比如在这里指的就是一个流程的建立。怎么去拆解流程，怎么样组合pipeline的节点，顺序等。通过不同Pattern的作用，形成了相应的System。

逻辑层面来说，设计流程并优化的大概思路就是上面所写的了。可以是真正的一个流程，比如说线上变更的工单流程，也可以是去解决问题的一个思考过程。

以办公网安全治理举例(其中终端安全的细节可以参考这篇浅谈终端安全), 终端安全这里就有黑白名单软件禁用的流程，软件统一推送的流程，Admin权限回收的流程，回收后的提权流程，证书推送的流程，数据泄漏后的处置流程，IT的资产管理流程，职工身份的转变流程等等。这里面就有IT和安全部门的协同，还有不同部门的员工办公需求等。那怎么在员工的行为规范中体现这些策略，怎么在实施中包含具体的控制点等就是设计时着重关注的。谁提，谁批，分支到哪，谁实施，哪里记录，哪里审计，哪里实施等。这些就是具体的工单覆盖，把流程统统的变成平台/系统中的Ticket。

再以微服务安全举例来理解下系统化的思考及解决问题的过程。

需求分析：解决X1,X2,X3问题
依赖管理：AWS Cloud，K8S，Service Mesh, Spring Cloud。运维倾向XX，不愿意XX，应用倾向XX，不愿XX，安全XX，YY
模式融合：现有变更流程，现有的发布模式，现有的基础设施，现有的安全管理。分别参考了哪些最佳实践，有哪些可以结合的点。例如上篇博客中提到的安全架构和TOGAF的融合
系统实现：长期方案从基础设施层面去做XXX，解决了哪几个问题。短期方案从应用层面去做XXX，解决了哪几个问题；在长期方案中需要A1,A2,A3,A4 步骤实施，分别怎么解决XXX问题

0x03 总结

总结着才突然发现，虽然写的流程建设但实际更多是在描述系统化思考的过程。怎么样具备逻辑的去拆分问题，去组合相应的影响因素然后去解决问题。

当然，系统化思考对于技术工作是有一定好处的。不过也总感觉讲究严谨的逻辑的同时其实也丧失了天真和浪漫的想象。

建设安全架构

2023-01-04T16:00:00.000Z

0x01 前言

之前写了几篇存稿，过了几个月也没有时间去接起来完结掉，干脆就不接了。看看外面甲乙方都宣传的天花乱坠，独独安全架构始终没有存在感。2002年、2003年的安全架构书籍中记载的理念，过了20年依旧没有很好的落地。我看倒不如也来聊发少年狂，漫谈一下如何建设安全架构，刷刷存在感。且当我是胡言乱语不作数。

0x02 正文

分协作和治理两块。简单介绍总结一下。

1. 协作

一般来说，要确保各自的职责范围，建立相应的协作流程，通过一定的同步机制降低部门间的信息差。对专项形成一定的虚拟团队等。安全架构组负责承担团队内外的设计需求，例如安全治理团队和风险管理团队的需求（有些团队可能会把安全治理的一部分职责放到架构中去。理论上如果能够形成单独的团队效果应该会更好）。并交由平台组实施，通过运营组交付给最终客户。安全架构将承担着承上启下的作用。完成方案的设计，使其符合Policy Design，找出gap，使用某种符合的pattern或者model，最终给出平台的System Approach。

平台是支撑持续交付的必要条件之一，除此之外在面对业务方的时候，并不能仅仅通过【当时】上下文了解，还应该建设长期对业务深入了解的机制。

平台
对外的持续交付将由此逐步推进团队内平台化建设。由此形成安全能力的交付平台。小规模的安全平台可以从承担研发运维，稍大些的团队可以囊括到安全运营日常工作中的需求。但这并不是说搞几个安全运维工程师和安全研发就是安全平台了。平台一定是要有平台级，系统化的产品的。内化策略、流程和风险管理到平台，通过接口整合系统并输出自助式服务能力。
业务
安全对业务场景的深入将催生相关的专职人员，在制定综合性解决方案前一定需要足够多的关于业务的上下文。而这些业务背景需要更加系统化，能够互相关联。例如合约、钱包、现货之间存在哪些共用的，一方的变化是怎么样影响到另一方，安全的控制措施是否产生连锁反应等。那无论是信息安全BP，还是BISO，都可以起到深入业务共建的角色。形式上可以通过参与架构委员会，成为单独条线的业务安全接口人，以此来获得更多的有效信息。尤其是在业务迭代较快的情况下。

2. 治理

安全治理的原则从安全默认到安全左移，其实也无非是时间和空间的关系。最终的效果就变成了默认安全左移的纵深防御，能够尽量提前自己的安全设计，并使其落地。但由于基础设施的IAC化，无论是Infra还是应用都能获得动态的资源变更，因此发布频率也将越来越高。这也导致要求安全运营需要更快的自动化响应，在发现和处置之间尽量的缩短时间，以及避免不必要的步骤。近些年来，检测及响应领域出现了X-DR，X-SPM，安全运营出现了X-SOAR，攻击模拟等新的产品。对内通过管理资产并进行保护（PDRR-P），对外形成风险管理面（PDRR-D）。并通过安全运营使其自动化，通过攻击模拟验证系统架构（防御及设计流程）的强度。这应该是较为常见的一种防御模式。

在这个过程中，我通常还会关注框架的融合（以某种方式整合安全属性到企业架构中去）、基础设施的变化以及业务特性（例如web3业务，以及混合多云比较头疼）、信息保护和数据安全。下面分别简单的总结一下。

框架融合
无论是安全架构还是企业架构都已经形成了自己的方法论，闻名遐迩的有TOGAF，风险管理的有Octave，安全有SABSA，O-ESA等等，那怎么样把领域内的框架和企业架构框架融合到一起在做安全设计的时候就显得非常重要，因为后续的解决方案都应该遵守这个规则/框架去实施。
云与Web3
云和云原生依旧是未来的趋势所在，或者说是资源虚拟化及动态调度。虽然不一定选择公有云，但一定是具备弹性能力的。我有几个明显的感受变化，一是当自己使用云但企业使用IDc的时候，二是当企业开始使用云的时候，之后当企业使用混合云，混合多云的时候。这是完全不一样的心理感觉。云上的安全防护毫无疑问是企业会主动关注的，但作为云厂商提供的安全产品却通常比较简陋，而且租户缺乏一定自主性，同时又会默认依赖/信任云厂商。但作为安全从业者，又觉得云厂商做安全有一种都想做，但又做的不太好。对于租户来说，只是获取了资源。对于云来说，都是厂商的生产网。结合Web3来说，去中心化的业务运行在中心化的云上，可能因为合规，可能因为供应链危机导致账号面临关停。云上虽然提供了弹性，但资产却不完全是自己的。而对于Web3来说，如果是去中心化的链或者发布的合约，基本上意味着一旦出现了安全事故，无法像传统安全那样获得快速的修复和止损，更不用说资产的追回。纵观过去一年，有多少项目遭受了灭顶之灾。而web3项目在基础架构的设计上又和传统安全没有太大的区别。这也是我把这一小段取名云与web3的原因之一。务必要去深入了解业务以及基础设施。

信息保护与数据安全
数据安全可以是一种技术能力，也可以是想要做到的目标。最近看到不少数据安全类的文章分享，不过大多数都是从DSMM或数据生命周期出发的。不过以架构视角看看corp侧的信息保护和数据安全。不同于site/生产环境，corp的数据更为分散，场景更为复杂。例如生产网的数据可以很快的去划定好等级，类别。因为key和value的格式较为固定，也能够很容易的建立起检测机制。但办公环境就比较难以实现。例如在site环境里去匹配一个身份证号，和在办公网环境里面去检测一个身份证号是差别较大的。不具备固定的pattern，可能存在于邮件，可能存在于wiki，可能存在于文档。分布过于复杂。这就意味着需要不同的系统和工具来支撑发现。可以通过对文档进行强制主动标记的方式，结合固定点的DLP进行防护，见下图（修改自微软的数据保护框架）
。之前有一篇将终端安全的文章，细节就不在此赘述了。隐私保护主要在人，关注在人产生的数据中的敏感部分。数据保护关注在数据，可以是PII、金融数据、也可以是其他敏感数据（隐私保护和数据保护为了便于理解在此都被划为信息保护了，不一定对）。而这一切都需要数据安全提供技术支撑，通过隔离，加密，水印，脱敏，Token化等技术达到数据“安全”的目的。不过我现在已经不像最开始的时候，期待通过对数据治理实现数据安全。而是在此之外，综合基础安全/应用安全解决方案来实现数据安全。当然还有一个点要提，综合性的解决方案，绝对不是综合某一家厂商的不同产品或解决方案。

0x03 总结

如果安全架构组在团队内的可见性较低，多数是因为没有建立有效的合作流程，才导致无论对内的输出以及对外的输出都遇到较大的阻力，以及信息差。当然这个并不完全是安全架构组Leader能够左右的，甚至是安全负责人也无法决定的。在可见性较低的时候，团队的存在意义就会受到质疑，自我怀疑。

而作为安全架构师，看过了狗屎一样的设计，也一次次遇到过瓶颈。也愈发感觉到顶层设计的重要性。就像我最开始意识到数据的价值之后，期待通过自动化运营来发现并反向push解决这个问题，实际更需要通过架构设计从源头杜绝。类似的还有，当需要开防火墙的那个需求来了，才想着去看系统设计的案例多不胜数。反向建设固然能接飞盘博眼球，但累的还是狗。

我不喜欢撒谎的人，也不喜欢不守信用的人。都说工作和生活是分开的，能力和品质无关。我愈发觉得品质倒是重于能力，工作中更需要品质和能力相适应的员工。不应该因为能做某个事情某个工作，而忽略了其品质。我一直一个愿景，希望能通过自己的努力去促进安全行业的进步。而看多了安全行业的谎言（也许其他行业也一样），我也不再期待所谓的理想环境，更多的转向到实心用事，能尽自己的一份力，发出萤火之光就行了吧。

最初意识到数据的价值还是因为各种各样的裤子，到后来做反入侵时再次认识到数据保护（不必过于关注这些词语）的重要性。虽然我的一些治理观念是从DSMM的培训建立的，比如说从数据分类开始了解整个数据生命周期。但到后面参与Cryptography的基础设施建设时，又对以密码学技术支撑的数据安全有了些新的认识。比如说真随机数的产生，确保可信根的建立，PKI，密钥管理等等（让我对嘴上说说/运营侧的数据安全和算法支撑的数据安全有了不同的认识）。之后逐渐开始关注Information Protection，Data Privacy与数据安全的区别（什么是Privacy，代表Privacy的Data是不是最有价值？开始了解数据安全相关的立法）。对数据安全（又在关注技术）的research也开始从Data At Rest / Transit向Data In Use过渡。开始关注到隐私计算相关的技能，诸如MPC在KMS上的应用，AWS/Azure上的TEE等。以及目前针对Corp/办公环境的数据治理，通过综合信息隔离，终端安全，数据防泄漏，信息保护等各种方案实现一定程度的数据安全。

22年12月中的时候去体验了一下方舱医院。

未济

2022-11-26T16:00:00.000Z

前些天的时候我经过一个村子，有户人家门楣写着耕读园，看着有些年久失修.

老子说:“失道而後德，失德而後仁，失仁而後義，失義而後禮”。年少轻狂，少不更事多是讲江湖义气。至启蒙，则学习礼义廉耻。仁义发乎于道德，终止于法度。再至上下求索，君子慎独。是有割席分坐典故，为道不同则不相为谋。

不敢遑论什么益至上，娱乐至死的社会。仅以职业角色而论，传统农民工尚知道抱团取暖，新生代农民工则只知道技术交流群不可以讨论政治，却不知群可再建，人无重开，更何况所谓技术交流，最好的结果是带来好主意，更多的是过渡碎片化的废话毫不成系统体系。做任何职业角色和身份之前一定先是一个正常人。正常人是去关心火祸还是关心吴某宿娼，不辩自明。如果是后者，可以说是教育的失败，礼崩乐坏。保安知道巡逻守卫，护士知道看检测，但也更要知道生命比一纸证明更加的重要。医院流产的孕妇，来不及抢救的孩子。那些少年时代的风声雨声读书声声声入耳尚可专心致志求学，而今家事国事天下事事事却都读到了狗肚子。切莫负心多是读书人，仗义每多屠狗辈。无论是记者，教师，医生，警察，律师等等，是人皆有背负。但如果说无知者无畏，那知不可为而为之是不是可以称得上大无畏者。不求人人大无畏，但何不量力而行，尽力而行。世事维艰，也应为同行之人留出一条道路。

这个世界从不缺谎言和骗子，也不缺傻子和自以为是的大聪明。真正的看清生活热爱生活，一定是努力建设热爱的生活，而不是偷着乐的理中客。人获得的越多，越喜欢理性看待，辩证看待。精致的利己主义总会让人忘却了还有逻辑这会事。王阳明说以此心即理，求至善而行之于身，是所谓知是行之始，行是知之成，即知行合一。今人如一好字说不得，一坏字说不得，一中字说不得，一白纸举不得。那应当对这个世界说声Fuck you，然后告诉自己做个人，做正常人，做力所能及的事。

// 理想主义有时也是一种痛苦
// 8年前开始写博客，没想过坚持什么，也没想过给谁去看，倒也因此认识了几位网友。我自己则是通过这种不断的总结学到了一些东西。不过总结二字，应当是厚积薄发的。给自己看的东西，又何必要写废话呢？后来到4年前的时候，跟风建了个公众号。最初取名叫《脑子有水》，后又改为《企业与信息安全》。其实一直没有很好的定位。博客勉强算是有些访问量，公众号则是过了四年也没凑够五百个订阅，其中还有一些是最初四年前厚着脸皮请朋友关注的。
最开始除了总结技术还会输出一些个人观点，后来又有意识的去改掉这种习惯。毕竟亲历不同，体悟亦是不同。尤其近年以来，渐觉世事无常，更无绝对。但又随着时间的增长，我又改变了这种想法。每个人都理智着，沉默着。是不是真的是一件好事？我想或许有时候还是要《脑子有水》一下。

安全规范建设指北

2022-11-15T16:00:00.000Z

0x01 前言

我在去年关于企业安全观的文章里就总结过，做安全架构是需要管理，运营，技术互相配合的。那怎么配合，技术怎么实现总归是有一个参照物/底线在的。如果什么都张口就来，时日渐久也就没什么”架构”可言了。而文档作为一种交付形式，可以成为最基本的参照物。今天简单以架构视角看看怎么建设安全规范。

0x02 正文

领域与范围

Policy是做架构主要参考和依赖的，对比procedure和standard来说更为抽象（使用xx算法或者实现xx控制）且无关技术实现的（使用xx工具），在编写Policy时还需要具备一定的弹性（例外情况）。安全策略的制定主要来自架构团队，需要架构师做到对不同领域的安全技术和应用场景（例如常见的数据分类在web3/crypto中的是不是要调整一下）以及优劣等都了然于胸，属于High Level Design。以Crypto管理举例，既要精通密钥的生命周期管理（怎么产生、存储、备份、恢复、销毁等），也要熟知各种应用场景（对称密钥哪些算法，用于加密还是完整性校验，非对称哪些用于认证还是加密，长度的控制）。这里还可以以此讲下架构中的弹性设计是如何在策略中体现的，比如策略制定的时候规定了不允许使用DES，填充也不能用CBC。那以这个策略为分界线，在此之前肯定存在一些遗留系统是使用。而策略的生效边界是Relase/Approve之后。所以针对这部分就需要注明在策略中，某些弱的算法仅允许遗留系统使用，针对新的业务系统必须遵守新的规范。同样的策略可以要求集团所属的企业（实际情况是BU间都不一定满足），但是要求不了合作方（或者说合作方不能完全遵守的，类似的有开放平台、做市商，投资机构之间的数据流转等）。比如要接某家的人脸识别，虽然在策略里定义了针对X类数据必须使用AES256以上进行数据加密。这时候突然发现对方接口只支持3DE怎么办？在业务优先的情况下，肯定是要放行的。这就需要在策略制定时提前规划进去，预留一个例外（Exception）情况的通道。比如获得XX负责人的批准，除此之外针对违反了基线的Exception仅允许1次且只能在xx时间内进行修复。类似的如果以网络安全管理，既要定义怎么划分哪些安全区，也要定义什么应用可以放在什么区中，以及访问什么区域需要什么样的权限等等，同时针对网络配置的备份恢复，日志和流量镜像的存储等等。那针对这些边界区之间的规则如果还要做特殊的网络开放，就需要通过特殊的Exception流程完成。
Procedure是做运维运营必须要遵守的，一般是针对各种平台、产品、工具、系统等制定在不同场景下的标准流程。一般编写SOP的是一线工程师的Manager/Leader。当然更多的时候可能是一线工程师编写，Leader进行Review。SOP的编写要求对所处领域的技术实现和现有资源充分的了解，比如说写设备加固，系统加固的流程。怎么禁用未使用的协议，怎么传输日志到集中化日志平台。怎么备份，怎么恢复等等。（前面policy会指明应该具备备份恢复，且备份管理应该是多久。这里的备份指的是具体备份的流程，比如使用xx命令定时产生备份文件，进行hash校验后通过xxx同步到xxx位置。github备份有一份流程，DB也有一份流程，jforg又有一份流程等等）。除此之外流程的产生还有很大一块是在安全运营以及应急响应。例如接收到钓鱼邮件的处理过程，端上病毒软件的处理等。这些具体到场景的工作流程，写起来还是比较容易的，但是有些安全工程师做运营的时候往往不愿意去输出流程。一是盲目自信，二是抵触文档工作（不是技术工作）。而实际经验告诉我，缺乏SOP会在应急的时候造成对个人能力（实际应急的员工）的依赖，而压力之下又容易缺乏系统思考。

Standard指代的更多是技术标准，包含了标准配置的定义，基线的定义等。前面提到了制定管理约束的Policy，制定了具体场景下对不同工具的使用Porcedure。而Standard就是针对这些工具，产品提供的具体标准配置文档。举例来说，假设前面policy提到了备份，procedure提到了用ssh备份，那公司内ssh相关的standard里就要规定了默认的ssh配置。比如使用SSH-2以上的版本，曲线25519，禁用3des-cbc的密码，使用hmac不使用md5等等这些都是基础的技术基线。类似的，如果使用TLS，使用TLS1.2以上，使用哪些允许的Ciphersuite，Ciphersuite的选用顺序，服务端上怎么配，客户端（IOS，Android，OSX等）怎么配置，证书来自哪里，证书的选择及配置等等。一般来说行业都会提供一定的技术标准文档和最佳实践（无论是policy还是standard，都会涉及到去参考行业标准）。可以根据这些标准制定出企业内所适用的。

格式与内容

格式上的字体选择，字号大小就不讨论了。一般首页指明规范的名称，编号，版本号，批准情况，历史记录等。页脚标注仅限内部使用，页眉放置编号及名称，同时加上水印，如果是国际化的企业，还需要准备多语言版本。下面是截图。

一般内容来说会包含以下几点：

概述和目的
通用范围
关键定义
角色和职位描述
审批要求
实施和例外情况

需要注意的是在制定的时候需要参考国际规范，也要参考domestic的。例如MLPS2.0，密码法等等。除此之外还需要注意不能有模棱两可的语言，要明确场景，场景约束。同时尽量官方，也不能有你我他这样的描述。

审计与例外

规范本身也需要具备生命周期管理的。什么时候更新，经过什么样的流程发布，什么情况下规范不再适用等等。所有发布的规范（策略，流程，标准）都需要经过批准（内部区分出Release和draft版本），一旦Approve并Release，不论是一线工程师，还是管理层都默认必须遵守该规范。但如前文所述，一定是会存在例外情况的，那针对例外情况可以去提供exception流程，只不过这个流程一定是具有较高的成本。设置Exception的准入，提高Exception的批准节点（例如条线负责人），设置缓解的期限（例如3个月内解决）等。

0x03 总结

规范的建设是作为底线存在的，不同的底线组成了框架。我们期望能够尽量构建一个弹性的框架，覆盖常见的场景。但显然不可能所有业务都能够在这个框架内。做为架构师，也只是去尝试选择最适合的方案，而不是最好的方案。

了解了Policy，Procedure，Standard也就知道架构评审中的Checklist是怎么来的，那些SDLC平台中的知识库来自哪里了。除此之外还有一个值得思考的问题，做Policy的（Policy的制定不一定全部来自架构团队，有的来自Compliance团队。）怎么才能避免不和Operation以及Technical的东西脱节。除了建立反馈机制外，也依旧需要了解一定的技术细节，例如知道什么样的工具通过什么样的操作达到了什么样的效果。

虽然讲了这么多，事实上小厂是基本还没达到制定policy的条件，而大厂一般又不需要从零建设Policy（大多有专门的团队负责）。但无论如何，做架构的还是需要清晰的知道这些规范是什么样的。

//最近发现latex写规范文档简直是神器

//我前些天分别在三个群聊里请教了如何评估安全架构组和安全架构师输出的问题。事实证明，没有经历过就去谈经验，很难对的上。回头单开一篇文章讲讲怎么衡量。

现代化安全产品

2022-11-05T16:00:00.000Z

0x01 前言

本来是想取名为《安全架构师需要什么样的安全产品》，不过想想我又怎么能代表安全架构师这个群体呢，思考再三，于是便将其改为了现代化安全产品，以此畅聊一下过往经验中对安全产品的需求。

0x02 正文

具备清晰的边界和专业能力
一是指解决了什么问题（适用的范围），二是指做到什么程度（壁垒的高低）。边界外的事情交给其他产品（这样一条产品线不就来了），边界内的做到一定的专业度（技术上有平台适配，场景适配，功能支持，性能等等，服务上有售前售后，采购的机制上等等）。但实际上很多安全产品并不能搞清楚边界，要么是缺少功能，要么画蛇添足。例如某安的KMS，内置了一个简陋的PKI，这么说并不能体现出什么，一般也没有人使用，但往往又会作为宣传的一部分，实则是食之无味弃之可惜。再以微软家的信息隔离举例，实现的IB以Exchange为主，作用在Sharepoint、Onedirver和Teams上。但策略生效时间未知，基本半小时以上。界面上又只能增加，而删除却要通过命令行。sharepoint上可以使用IB，策略生效又变成了1小时以上，但同时又可以增加External Shareing，意味着为隔离打通了一个新的通道。再以Defender举例，边界划分虽然十分明确，Defender for IOT， Defnder For Endpoint等等，但又存在平台支持不全，进程假死，不具备调试日志这些问题。另一方面从场景化来讲，不仅要支持场景化，还要把场景化抽象出通用能力。例如能做进程提升的检测，反弹shell的检测，也要做由此做到支持多种数据源输入，通用的检测引擎，以及事件关联和告警分析等功能。
具备系统基础能力
作为一个产品，自身是必须要具备一定的系统基础能力。不确定是否有更合适的词语来描述这一块，想表达的是作为一个系统需要满足的可用性，可靠性，安全性等。例如Logging & Monitoring，TLS，HA & DR，SSO集成，Backup&Recovery 等。简单来说作为一个安全产品，不能再允许“因为我在内网，所以我可以用http而非https的事情”。某安的HSM丢日志，某软的EDR没有调试日志。这个就不一一举例了，类似产品还是蛮多的。有的不支持高可用，有的不支持TLS。而且一旦要求支持，可能就要所谓的“定制化开发”，价格不菲。除此之外安全类的产品一定要保证自身的安全性。例如Splunk支持脱敏查询，但并不支持数据的加密存储，虽然做为SIEM并不会存储大量的数据，但针对index数据无法做到加密存储。类似的例子还很多，比如Cyberark支持证书认证，但是不对证书的CA进行校验。
简单易用并提供专家模式
我清楚的记得最初做安全研发的时候，组长告诉我就把功能做成傻瓜化的，点一个按钮，就能够帮助用户完成所有的步骤。用户就可以拿到最终的结果。当然也可能是因为当时的目标用户并不具备一定的技术背景。不过现在看来，让产品简单易用和傻瓜化依旧是一个很好的卖点，如果用户点击3次按钮能够完成的事情，用户肯定不乐意去点击10次。除了产品直接用户的简单易用，还要降低运维的部署维护成本，例如提供自动化程序化（IAC）的方式去部署，或者支持云上的一键部署。例如某x引擎的标品在部署时混合了虚机和容器，但是默认使用自建K8S而不支持EKS。聊完了简单易用。谈谈专家模式，为什么要聊专家模式，微软的安全产品在简单易用上可以说是独树一帜，没有复杂的配置界面，大部分只需要简单的几次点击就能满足。但这种简单之下，导致一些定制化的工作就非常困难，变成了需要通过大量的点击。而不是通过使用yaml类似语法或者DSL去配置实现。
具备一定的扩展性
首先通过提供API接口或行业标准协议让数据在系统间流动起来。例如Vault使用pkcs12协议进行hsm的集成，workday使用scim协议和sailpoint集成，使用saml协议和AAD集成，使用acme协议管理证书，使用kmip协议管理密钥等等。其次提供插件机制让产品实现场景化定制，例如vault使用自定义插件支持国密算法。最后支持系统间的整合，例如企业内往往会有各种运维平台，产品在系统层面应当能够支持对接。例如日志去跟Splunk对接，监控去跟zabbix之列对接，权限管理和AAD，Sailpoint之列的对接等。
支持职责分离（SOD）
大部分的产品都是超级管理员可以做一切，调整日志，赋予权限等等。实际上超管只需要能够管理用户并及授权即可，具体到每个role的职责由具体用户实现。例如审计员具有全局只读，运营能够进行配置管理等。在职责分离这一块上微软的非常好。但却又有点过犹不及。往往导致申请了目标role之后，还需要为其使用的相关功能申请细项的role。
现代化界面
现代化界面往往是最容易想到的一点，但什么是现代化的界面需要UI设计师来定义了。我知道的是以IBM的IGA产品举例，还在使用jspx做上世纪的表单风格。但cyberark在切换了html5加载时间高达1分钟以上，性能优化是非常必要的。

0x03 总结

我并不是做咨询的，也不是做产品的（虽然我设计过一些简单的安全产品）。我入行以来，切实的做过自研，写过小工具，折腾过开源产品，使用过自研产品，也使用过大量的商用产品，商用的基本都是各领域的top存在，这多得益于稍显夸张的安全预算。我关注Gartner，但更关注实际的落地情况，尤以架构的角度去思考。例如在终端安全治理总结中，是去综合考虑IT和安全的配合，安全控制对员工的影响以及Exception通道，规范建立等。而非去选所谓的“top”产品，更多的是选择合适的方案和适合的产品。

想想现在经常能看到各种7天快速入门的“黑客”教程，和很多“月入过万程序员”的培训如出一辙。大多数都是在教一些基本工具的使用，而我认为工具的使用应该是默认的一种能力，到头来教培盆满钵盈走了，外行看看热闹散了，行业和真正的从业者承担了因果。

最近的收获还是蛮多的，就多总结一些文章吧。

安全左移移了么

2022-11-02T16:00:00.000Z

0x01 前言

像安全左移，安全默认这些安全设计理念已经出现很久了，但是其实没看到具体介绍怎么去做左移？到底往哪里是往左？今天简单聊下我理解的安全左移。

0x02 正文

安全左移的原文是Shift To Left。这里我依旧用中文来称呼。想理解往左移首先要理解左移是为了干什么，左移一般是为了将防御能力提前，换句话说就是将安全默认能力提前。那对于应用和基础设施来说，这种从内向外提供服务的一个过程，左移就是逆过来从外向内。例如从firewall/anti-ddos/waf/的边界防御提前到CI&CD的SAST/IAST就是一种左移。那对于数据这种从产生到落地的过程，左移就是前置到生成的时间节点。例如从DB的TDE到Application和EAAS的集成。除时间序列外的左移，也可能是空间上的能力覆盖（这个具体怎么表述没想好），是不是也算一种左移。例如使用KMS产生的Data Key被包裹成KEK存储在本地/任何地方，仅在运行时的加载，即在内存之中。如果认为此时仍旧存在内存被dump的风险，那可以将KEK的解密和Encalve结合到一起，使其仅在TEE环境中完成密钥和数据的计算。

下面我以三张图分别简单介绍应用，基础设施、数据这三块的安全左移。

应用这块其实在之前的现代化SDLC与架构评审
简单提到过一嘴。（可以看这个动图）。SDLC其实也是安全左移的一个主要体现。从R&D到部署运行，出现问题的影响肯定是越来越大的，同时所需要的修复成本也是越来越高的。所以可以通过左移去提前发现问题，比如可以将边界防御提前到CICD阶段乃至架构设计阶段。但这里大多数说的其实都是业务侧的，企业建设也是关注如何为业务侧覆盖SDLC。却很少有提到支撑侧的。甚至支撑侧的产品都很少有安全能力，由于支撑侧的产品大多数是采购的，因此图中我只保留了运行时和架构设计两个阶段。试想一下，除了业务之外，我们会用到哪些产品去支撑企业。简单的有Wiki（Confluence），PM（Jira），审批系统，Payroll，电子签系统，HR系统，OA系统，权限系统等等。有多少是经过安全评审，有多少是具备标准的系统架构，寥寥无几。一方面来说，大部分这些系统存在于安全团队之前，缺乏一定的上下文。另一方面，没有谁会愿意主动去搅动屎坑，本身已经积重难返。但支撑侧的薄弱往往又会成为攻击者的入口点。

聊完了应用这块，聊聊基础设施，应用最终是要承载到基础设施之上的，当然Serverless近些年还是蛮火的。不过serverless并不能解决所有的问题。企业也不必认为使用Severless就可以不需要安全团队了。这里我以云平台举例。大多数情况下，大厂都是有标准镜像的，根据标准镜像启动实例。然后符合baseline配置。但是在这个过程中实际上仍然会出现不少错误配置的现象，无论是宽松的测试环境账户，还是未收拢的权限和各种资源创建流程。例如有的是通过CMP平台去创建，有的是通过手动在界面创建，还有的通过AK/SK去创建等等。图中展示了如何避免在instance生成之后通过扫描到错误配置去推进修复，而采用对CMP平台创建资源的IAC Code进行扫描，尤其是针对Policy部分进行加固。例如通过tenable的CSPM可以完成对terraform的代码扫描。从而实现在资源创建阶段完成配置检测。这样就不必在资源创建以后引发线上变更了。当然policy都是为了满足通用场景的，那针对一些特殊场景，依旧需要场景化的policy。

Data这一块，最初画图时我没想好视角。本打算从数据产生的角度去画，但是没有想好一个场景。最终换成了以数据状态纬度来描述。图中先是介绍了数据直接以plaintext的形式落到DB的场景，这样其实对于DBA来说，可以很轻松的读到所有的数据，当然对于攻击者而言也能直接拖走所有的明文数据。那何时让数据变成加密态就可以通过左移实现。如果通过DB本身的TDE来实现，一是只有商业版来支持，二是各DB Engine对TDE的支持维度不同。有的是行级别，有的是表级别。因此可以通过将其前置到DAL（Data Access Layer）层，通过在DAL层与EAAS（加密即服务）的整合完成所有数据的加密，那么无论背后的DB是什么样的，其存储的都是密文数据。同样的还可以前置到Application层面，尤其是在企业中没有DAL的情况下。

0x03 总结

讲了这么多，还是要声明下永远不能为了左移而左移。以上文举例来说的，在技术侧的左移还要考虑到工程落地，考虑到产研的协同等等。例如针对数据存储时明文和密文的状态，或许使每个Application在访问DAL层时就变成了Ciphertext是最提前的，但实际上会导致每个应用都增加一定的开发量。那在DAL层存在的情况下，通过整合DAL层和EAAS就更符合工程落地的需求。除此之外左移还可以体现在策略方面，通过提前在规范中内置约束实现。

另外并不是什么都是要左移的，就像之前的文章里提到的测试需要右移。因为需要更真实的环境，以便发现实际运行时的问题。

最近真的是又感触非常多，还有两篇都列好了点，但没有来得及写。一个是讲讲安全产品的，一个是讲信息保护和数据安全的。当真是学无止境，瓶颈突破之后带来的视野能够看到更多不一样的东西，常看常新。

安全架构师的运营一二事

2022-10-26T16:00:00.000Z

0x01 前言

做工程师的以为做了专家就不搞运营了，做安全运营的以为做了架构不需要关注运营了。实际上运营又是始终逃不掉的一个话题，不过今年好在不像前两年吹的那么厉害了。简单总结下架构中的运营工作。

0x02 正文

先讲讲常规的运营工作有哪些，需求收集（安全团队内外的奇奇怪怪需求）和风险跟踪这两块是日常工作中最常见的，主要体现在架构评审和安全咨询两部分。拿架构评审举例，经常需要沟通去说服业务方接受一定的baseline。但业务方往往会有以下的理由：

我们在内网，不需要密码，不需要tls，key就存数据库就行；
别人怎么怎么用的，别的公司都是这么用的；
这个github上的star分数很高；
这个业务很急，优先级很高；

在这种背景知识不对等的情况下，一方面由策略/规范去强制要求业务方遵守规则，另一方面需要一遍遍的耐心沟通，补齐背景知识。而往往结果又会变成：

一个文档十句话，架构图一个没有，上下文也不记录；
丢个第三方软件的链接当作答案，让你自己去看；
加密哈希编码傻傻分不清楚；
几个会开下来，该改的地方一个没改；

架构评审做的越多越让人感觉无奈。针对事后的风险管理，即便通过流程进行跟踪，但很大程度上会出现牛头不对马嘴的解决方案，会上说的是一套，实际做的又一套，甚至可能没往某方面设计就close掉风险点了。

除此之外还有规范建设，内部（或者和其他部门一起）写策略，写基线，写管理办法，写流程等等。一般格式会分为：目的，范围，内容，附录几块。初版之后要review/cross-review规范，release规范，update规范。这些规范应该具备统一的格式，编号，水印，固定的更新周期。同时由于有的是写给员工的，有的是写给IT的，还有的是写给运维的。还会涉及到能力推广，这又包括培训，宣讲，分享几种不同的情况，当然可能还需要建设一个团队对外的Portal，供企业内其他部门的员工查看。一般会包含以下几个板块，org&leadership，mission，capability，event，policy&sop，所有在portal上的都将被认为是released版本。草稿版本放在wiki上编辑。

0x03 总结

以前是在“砖家岗”做架构，现在是架构岗上做“砖家”。从9月来是平均每周20h的会议，10月的几周更是爆炸，感觉最近至少要平均到30h了，有时候真的不知道是未来先来还是稻草先来。人特别累的时候脑子里就会疯狂嗡嗡嗡，思绪飘飞，有时候会把想到的写下来，可能会缓解一点，但有时候又没什么作用。想想很久没跑步了，今天去跑了一次，才2km就已经大汗淋漓，想来想去，还是休一天假，放过自己。毕竟狗命要紧。

// 微软的技术支持是真的菜，即便开了A Case（据说A Case的技术支持基本上干了8年以上，不能理解），很多bug都不能得到及时解决。另一方面也说明了安全类产品并不成熟，回头另记录一篇吧。

放之

网络与云安全架构设计总结

0x00 前言

0x01 上云： 勇做减法

1. 削减替换

2. 统一方案

0x02 云上：避免绝对

1. 平台与访问

2. 设计与运营

3. 以阿里云为例

0x03 总结及其他

当我们在谈安全默认时我们在谈什么

1. 设计中的一些默认

1.1 网络

1.2 应用

1.3 数据

2. 总结

一年四季

四季

寄语

数据安全相关法规学习笔记

1. 法规与标准

1.1 法律效力阶位

1.2 法规列表

1.3 技术标准

2. 相关解读

2.1 网络安全法（CSL）

2.2 数据安全法（DSL）

2.3 个人信息保护法（PIPL）

2.4 国内相关技术标准

3. 案例学习

3.1 跨境传输

3.2 产品中的体现

4. 总结

5. 参考

安全运营中心（SOC）与集体智慧

1. 运营与SOC

1.1 团队协作

1.2 数据平台

1.3 运营质量

2. 集体智慧

3. 总结

团队与项目观察

1. 团队

2. 项目

3. 总结

数据安全架构总结及案例分享

0. 综述

1. 数据安全架构

1.1 办公网数据安全架构设计

1.2 生产网数据安全架构设计

1.3 数据驱动的SOC安全架构

2. 数据安全架构案例

3. 总结

系统与架构

如何定制化ChatGPT

0x01 前言

0x02 正文

1. 前置条件

2. 训练代码得到新的Index

3. 使用新的index进行会话

4. 结果

0x03 总结

0x04 资源

管理团队与项目

0x01 前言

0x02 正文

1. 项目

2. 团队

0x03 总结

谈谈安全设计中的纵深防御

0x01 前言

0x02 正文

0x03 总结

玩转安全架构：从安全治理到安全验证

0x01 前言

0x02 正文

0x03 总结

写在立春之前

流程设计与优化

0x01 上云：勇做减法