谷歌公司在近期宣布推出 Magika1.0,这是其基于人工智能的文件类型检测系统的最新稳定版本。此次版本的发布,标志着 Magika 在性能和安全性方面的重大提升,因为核心引擎已全面迁移至 Rust 语言。自去年开源以来,Magika 已经在开源社区中获得了广泛应用,每月下载量超过100万次。

新版 Magika 的架构进行了全面重构,显著提高了处理速度和内存安全性。谷歌表示,这款工具能够在单核处理器下每秒识别数百个文件,借助多核 CPU 则可扩展至每秒数千个文件。Magika1.0采用 ONNX Runtime 进行模型推理,并利用 Tokio 框架实现异步处理,确保其高效运行。
在文件格式的支持方面,Magika1.0的检测能力已经扩展到200多种文件格式,几乎是初始版本的两倍。新增的文件类型包括数据科学与机器学习中的 Jupyter Notebooks、Numpy、PyTorch 等,以及现代编程和网页开发中的 Swift、Kotlin、TypeScript 等。此外,还支持 DevOps 相关文件和多种数据库及图形格式文件,如 SQLite 和 AutoCAD。
Magika1.0不仅提升了对相似格式文件的识别能力,还改善了对不同编程语言文件的区分,如 C 与 C++、JavaScript 与 TypeScript 等。谷歌在技术实现方面也面临诸多挑战,包括训练数据的庞大规模和部分文件类型样本稀缺。为此,谷歌开发了自有的数据集库 SedPack,并通过生成式 AI 工具 Gemini 创造高质量的合成训练数据,以提升模型的泛化能力。
值得注意的是,Magika 还更新了 Python 与 TypeScript 模块,使得开发者可以更轻松地进行集成。用户可以通过简单命令在不同操作系统上安装 Magika,并且谷歌鼓励开发者参与到该项目中来,继续优化与扩展工具的功能。
划重点:
🌟 Magika1.0采用 Rust 语言重构,性能与安全性大幅提升。
📂 支持200多种文件格式,新增多种数据科学与编程语言类型。
⚙️ 简化开发者集成过程,鼓励社区参与项目优化。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则