M系镜像 - 想做一个AI生成ASMR的应用，但AI基础有些薄弱，有没有人有兴趣一起

想做一个AI生成ASMR的应用，但AI基础有些薄弱，有没有人有兴趣一起

仅镜像

DLSite不够听啊，而且最近几年感觉变化很少，然后看看现在的多模态模型很厉害，HF上也没有现成的模型，想试试看。

实施方案

A. 使用现有的多模态LLM模型进行LoRA微调

优点：训练方法最简单，只要数据即可训练。

缺点：现有多模态模型都是针对语音生成的，难以期待生成环境音、效果音等。

B. 使用纯文本LLM生成描述再送入端到端TTS模型生成

优点：人声效果应该是最优的。且训练方法相对简单。

缺点：通过剧本生成音频难以描述音效的详细特征，而TTS模型又不具备能力自己理解氛围，因此容易导致出戏的音效。

C. 使用扩散模型从文本直接生成

优点：效果音效应该是较优的，环境音效应该是最优的，训练方法很简单。

缺点：可能无法生成长时间音频（或许可以使用滑动窗口实现？知识不足难以判断），人声的声线会很好，但无法发出有意义的语音（应该是哈吧里路这样感觉的声音），训练成本、数据量要求很高。

D. 开发新的专用多模态LLM

优点：只要付出努力，以上所有。

缺点：需要不一般的努力，以个人来说应该难以想象。

总之，我也只是工作之余想做着玩玩（只是个人要求比较高），大家有什么想法可以尽管提，想一起做的就高举你的双手！

2025-08-02 11:08