- 参考文献: GestureLens: Visual Analysis of Gestures in Presentation Videos
- 链接: https://ieeexplore.ieee.org/document/9761750
- 参考文献: GTMapLens: Interactive Lens for Geo-Text Data Browsing on Map
- 链接: https://onlinelibrary.wiley.com/doi/full/10.1111/cgf.13995
- 参考文献: RumorLens: Interactive Analysis and Validation of Suspected Rumors on Social Media
- 链接: https://arxiv.org/abs/2203.03098
- 参考文献: Anchorage: Visual Analysis of Satisfaction in Customer Service Videos Via Anchor Events
- 链接: https://ieeexplore.ieee.org/abstract/document/10045801
- 参考文献: EmotionCues: Emotion-Oriented Visual Summarization of Classroom Videos
- 链接: https://ieeexplore.ieee.org/abstract/document/8948010
- 功能: 接收用户上传的播客长音频文件,返回一个唯一的任务ID,供用户查询任务状态或获取处理结果
- 输入: 用户上传的音频文件
- 输出: 用于后续查询处理进度或结果的任务ID (
task_id) - 接口:
POST /upload_audio
- 功能: 根据任务ID查询音频文件的处理状态(处理中、已完成等)
- 输入: 任务ID (
task_id) - 输出: 任务状态(处理中、已完成、失败等)
- 接口:
GET /task_status/{task_id}
- 功能: 根据任务ID获取已处理的结果(包括转录文本、词频统计、词云数据、优化后的文本)
- 输入: 任务ID (
task_id) - 输出: 已处理的结果
- 接口:
GET /task_result/{task_id}
- 功能: 将上传的音频文件转录为文本,使用本地的音频转文本服务(可以使用现有的开源库)
- 流程:
- 收到音频文件后,调用本地的音频转文本包,处理音频并生成转录文本
- 将转录结果缓存到本地文件系统,供后续使用
- 输入: 音频文件
- 输出: 转录后的文本文件
- 功能: 对转录后的文本进行词频统计,并基于统计结果生成词云数据
- 流程:
- 解析转录文本,移除停用词,统计各词语出现的频率
- 生成词频数据并生成词云数据
- 将词频和词云数据缓存供查询
- 输入: 转录文本
- 输出:词频统计数据和有效词云数据
- 功能: 使用大型语言模型优化转录文本,将其生成可读性强的博客或论文形式
- 流程:
- 使用本地或远程的大型语言模型(LLM),通过特定提示词(Prompt)对转录的原始文本进行优化
- 将优化后的文本缓存,供用户获取
- 输入: 转录文本
- 输出: 优化后的文本文件
a.用户上传长音频文件,后端返回任务ID。 b.后端处理音频,转录成文本。 c.进行词频统计并生成词云。 d.使用 LLM 优化文本。 e.用户根据任务ID查询任务状态或获取处理结果(包括转录文本、词频统计、词云数据和优化后的文本)。