想做一个AI生成ASMR的应用,但AI基础有些薄弱,有没有人有兴趣一起

La
lanesun
想做一个AI生成ASMR的应用,但AI基础有些薄弱,有没有人有兴趣一起
仅镜像
DLSite不够听啊,而且最近几年感觉变化很少,然后看看现在的多模态模型很厉害,HF上也没有现成的模型,想试试看。

实施方案

A. 使用现有的多模态LLM模型进行LoRA微调

优点:训练方法最简单,只要数据即可训练。

缺点:现有多模态模型都是针对语音生成的,难以期待生成环境音、效果音等。

B. 使用纯文本LLM生成描述再送入端到端TTS模型生成

优点:人声效果应该是最优的。且训练方法相对简单。

缺点:通过剧本生成音频难以描述音效的详细特征,而TTS模型又不具备能力自己理解氛围,因此容易导致出戏的音效。

C. 使用扩散模型从文本直接生成

优点:效果音效应该是较优的,环境音效应该是最优的,训练方法很简单。

缺点:可能无法生成长时间音频(或许可以使用滑动窗口实现?知识不足难以判断),人声的声线会很好,但无法发出有意义的语音(应该是哈吧里路这样感觉的声音),训练成本、数据量要求很高。

D. 开发新的专用多模态LLM

优点:只要付出努力,以上所有。

缺点:需要不一般的努力,以个人来说应该难以想象。


总之,我也只是工作之余想做着玩玩(只是个人要求比较高),大家有什么想法可以尽管提,想一起做的就高举你的双手!
大黑狼
Re: 想做一个AI生成ASMR的应用,但AI基础有些薄弱,有没有人有兴趣一起
仅镜像
不懂技术,帮顶