Skip to content
View Shybert-AI's full-sized avatar

Block or report Shybert-AI

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Shybert-AI/README.md

👋 你好,我是Shybert | 多模态算法工程师(工作语音算法)

🏠 base 西安 | 📧 854197093@qq.com | QQ群:1029629549

一名拥有 6年算法开发经验 的从业者,专注于语音前端处理、多模态模型训练与工程化部署。热爱通过技术博客分享实战心得,并在多项国际AI赛事中积累了大量优化经验。

  • 🔭 目前深耕:AEC回声消除、Diffusion模型加速、多模态内容生成
  • 🌱 正在探索:大模型端侧部署、视频生成模型(如Wan2.1)的性能调优
  • 👯 乐于合作:语音识别、声音事件检测、AI比赛方案复现与优化
  • 📝 坚持写作:在 CSDN博客 分享了 110+ 篇原创技术文章
  • 近期高光:2025 IKCEST大数据竞赛 第10名、2025百度商业大赛 第5名、2024 IKCEST大数据竞赛 第8名、GitHub项目 OpenManus-WebUI 226 Stars ⭐

🏆 比赛获奖与荣誉

我的竞赛经历覆盖了从语音、视频到多模态虚假信息检测等多个前沿领域,以下是一些代表性奖项:

年份 赛事名称 赛题/方向 获得名次
2025 IKCEST国际大数据竞赛 结合大模型的拍照识题与解题 全球 第10名
2025 百度商业AI技术创新大赛 视频广告生成推理性能优化(数字人生成) 全国 第5名
2024 IKCEST国际大数据竞赛 AI体育赛事解说 全球 第8名
2024 第二届世界科学智能大赛 生命科学 & 物质科学赛道 第14名 & 第15名
2023 IKCEST国际大数据竞赛 社交网络中多模态虚假信息甄别 全球 第11名
2022 vloong能源AI挑战赛 新能源电池异常检测 第3名

🚀 核心项目与亮点工作

这里是我在语音和多模态领域的一些代表性项目,涵盖了从模型训练到端侧部署的全链路实践。

  • 【比赛方案】智能拍照解题助手 (2025.12) 融合多模型(数学解题模型)的智能学习工具,支持拍照上传、多模型智能解题、自动容错切换,提供步骤解析、语音讲解和错题收藏功能。作为 2025 IKCEST 第10名方案的实践成果。(GitHub 项目).体验地址:体验地址

  • 【比赛方案】视频广告生成推理优化 (2025.09) 通过集成FlashAttention、TeaCache、自定义注意力分块计算等技巧,将单条视频推理时间从10分钟压缩至1分钟,实现 10倍加速,同时保证生成质量 (相似度 > 0.97)。(方案博客)

  • 【回声消除】基于两阶段的声学回声消除系统 结合传统的 TDC-wRLS线性滤波U-Net深度学习,构建两阶段回声消除系统,有效消除线性与非线性回声,显著提升语音通信质量。(GitHub 项目)

  • 【比赛方案】AI_SECS_Agent:体育赛事解说系统 (2024.12) 一个集成了目标追踪、姿态识别、OCR、球门识别等多模型的多模态Agent系统,能根据足球比赛视频URL,自动生成AI解说。(GitHub 项目)

  • 【比赛方案】MMF-RIM:多模态虚假信息甄别模型 (2023.11) 一个6亿参数的多模态融合模型,融合了ERNIE、ResNet101、CLIP-ViT和OCR文本特征,用于检测社交网络中的多模态谣言。(GitHub 项目)

  • 【WebUI应用】OpenManus-WebUI (2025.04) 构建了一个前端页面,通过Flask框架实现了对OpenManus的调用,并支持生成文件的预览,获得了 226个Star。(GitHub 项目)

  • 【声音事件检测】AudioClassificationModelZoo-Pytorch 开源了基于Pytorch的 20+种音频分类模型,并支持流式测试,为声音事件检测研究提供便捷工具。(GitHub 项目)


🛠️ 技术栈与专长

语音核心算法 AEC 语音唤醒 声音事件检测 语音增强

多模态与生成模型 多模态 视频生成 Diffusion CLIP

比赛与优化 模型加速 性能调优

开发与部署框架 Python PyTorch Kaldi PaddlePaddle C++/Shell Docker Flask


📝 最新博客动态 (来自我的CSDN)

我坚持将项目经验和学习心得沉淀为博客。以下是近期最受欢迎的几篇:

  • 【基于 AI 的智能小说创作助手】MuMuAINovel-sqlite
    🔥 1165 阅读 · 💬 15点赞 · 2026.02.08
  • 【半双工语音系统】半双工语音语音助手智能体应用代码
    🔥 1071 阅读 · 💬 11点赞 · 2025.12.21
  • 【深度学习可视化工具——wandb】注册、运行示例、导入已训练完的wandb文件进行可视化
    🔥 3078 阅读 · 💬 4点赞 · 2025.02.23
  • 【Qwen2.5-VL-3B-Instruct微调,单卡A800-PCIE-80GB复现VLM-R1】
    🔥 2255 阅读 · 💬 7点赞 · 2025.02.23
  • 【端到端图像压缩2024】《S2LIC: Learned Image Compression...》论文解读
    🔥 2152 阅读 · 💬 27点赞 · 2024.12.22

📌 更多技术干货,欢迎访问我的 CSDN博客。一起交流探讨!


📈 我的GitHub动态

Pinned Loading

  1. Prediction-of-stock-price-based-on-BP-neural-network Prediction-of-stock-price-based-on-BP-neural-network Public

    基于BP神经网络的股票价格预测

    Python 25 4

  2. Energy_Anomaly_Detection_TOP3 Energy_Anomaly_Detection_TOP3 Public

    能源AI挑战赛_异常检测赛第3名方案

    Jupyter Notebook 14 2

  3. OpenManus-WebUI OpenManus-WebUI Public

    构建一个前端页面,通过flask框架实现OpenManus的前端调用。

    JavaScript 226 54

  4. Codecfake_ResNet Codecfake_ResNet Public

    语音深度鉴伪识别

    Python 4

  5. ViMax_Webui ViMax_Webui Public

    本项目是基于 https://github.com/HKUDS/ViMax 进行的改进,采用了deeepseek模型,Qwen3-VL-32B-Instruct,和sora2对项目进行了扩展,并采用flask框架搭建webui.

    Python 8 6

  6. MuMuAINovel-sqlite MuMuAINovel-sqlite Public

    基于 AI 的智能小说创作助手

    Python 6 1