cnzylo
本站致力于IT相关技术的分享
构建由 Apache Spark 驱动并基于 Qwik 与 PostgreSQL 的大规模机器学习特征可观测性平台 构建由 Apache Spark 驱动并基于 Qwik 与 PostgreSQL 的大规模机器学习特征可观测性平台
我们的机器学习平台每天处理数TB的数据,生成数千个特征。这些特征是模型的命脉,但长期以来,数据科学家和工程师都在一个黑盒中操作。特征生成管道由 Apache Spark 驱动,将结果存入 PostgreSQL,但要验证一批新生成的特征是否有
2023-10-27
構建基於事件溯源與Apache Spark的實時讀模型及其端到端測試驗證 構建基於事件溯源與Apache Spark的實時讀模型及其端到端測試驗證
1. 定義問題:耦合的讀寫模型與性能瓶頸在設計一個高吞吐量的數據密集型應用時,一個核心的矛盾經常出現:寫入操作要求數據的高度規範化與事務一致性,以保證業務邏輯的準確無誤;而讀取操作,特別是複雜的分析與聚合查詢,則希望數據是反規範化的、預計算
基于非阻塞IO在OpenFaaS中构建高性能C++数据库写入函数 基于非阻塞IO在OpenFaaS中构建高性能C++数据库写入函数
一个棘手的性能瓶颈出现在我们的数据采集流水线上。日志和事件流通过OpenFaaS管道进行处理,大部分函数使用Go或Python编写,足以应对多数场景。然而,其中一个核心的写入节点,负责将高并发的结构化数据持久化到PostgreSQL,开始频
2023-10-27
构建统一开发者平台中台的架构权衡:融合Polyrepo、Webpack联邦、SAML与ClickHouse 构建统一开发者平台中台的架构权衡:融合Polyrepo、Webpack联邦、SAML与ClickHouse
一个拥有数十个独立工程团队的组织,其内部工具链的碎片化是必然走向的熵增。CI/CD流水线、质量看板、资源监控、部署日志,每个团队都有自己偏好的实现,形成了大量功能重叠但体验割裂的技术孤岛。构建一个统一的内部开发者平台(IDP)入口,将这些孤
2023-10-27
构建从 Java MyBatis 到 Python 的跨语言 CDC 数据管道及其 Schema 演进策略 构建从 Java MyBatis 到 Python 的跨语言 CDC 数据管道及其 Schema 演进策略
一个棘手的问题摆在面前:核心业务系统由一个稳健的 Java 单体应用承载,数据持久化层深度依赖 MyBatis 操作 MySQL。与此同时,新成立的数据科学团队需要近乎实时地获取业务数据的变更,用于模型训练和实时看板。直接开放生产数据库的读
2023-10-27
使用 Caddy 和 Lit 构建 PyTorch 模型的自动化金丝雀发布工作流 使用 Caddy 和 Lit 构建 PyTorch 模型的自动化金丝雀发布工作流
模型上线后的迭代是个棘手问题。直接替换线上正在运行的 v1 模型为 v2 版本,无异于一场赌博。新模型在离线评估中表现再好,也无法保证它在真实生产流量下的性能、延迟或业务指标不会出现衰退。我们需要一个受控的、可观测的、能快速回滚的发布流程。
2023-10-27
2 / 5