miv算法毕业论文(8篇)

个人学习 8 0

miv算法毕业论文 第1篇

先前对3D场景理解的研究主要是针对特定任务开发专门的模型,或者需要针对特定任务进行微调。这篇论文提出了Grounded 3D-LLM,它探索了大型3D多模态模型(3D lmm)在统一生成框架内整合各种3D视觉任务的潜力。

该模型使用场景参考标记作为特殊的名词短语来引用3D场景,从而能够处理3D和文本数据交织的序列。也就是说提供了一种使用任务特定指令模板将3D视觉任务翻译成文本格式的自然方法。

为了便于在随后的语言建模中使用参考标记,还构建了大规模的基础语言数据集,通过引导现有对象标签在短语级别提供更精细的场景-文本对应。

然后引入了对比语言-场景预训练(CLASP)来有效地利用这些数据,从而将3D视觉与语言模型相结合。

论文综合评估涵盖了开放式任务,如密集字幕和3D QA,以及封闭式任务,如对象检测和语言基础。跨多个3D基准测试的实验揭示了接地3D- llm的领先性能和广泛适用性。

miv算法毕业论文 第2篇

Transformer已成为自然语言和计算机视觉任务的基础架构。然而高计算成本使其难以部署在资源受限的设备上。

论文研究了高效Transformer的计算瓶颈模块,即归一化层和注意力模块。LayerNorm通常用于Transformer架构,但由于在推理过程中需要进行统计计算,因此并不计算友好。然而在Transformer中用更高效的BatchNorm替换LayerNorm往往会导致性能下降和训练崩溃。

为解决这个问题论文提出了一种名为PRepBN的新方法,该方法在训练中逐步用重新参数化的BatchNorm替换LayerNorm。还提出了一种名为简化线性注意力(SLA)模块,它简单而有效,能够实现强大的性能。在图像分类和对象检测上进行了广泛的实验,以证明提出的方法的有效性。

例如,SLAB-Swin在ImageNet-1K上获得了的top-1准确率,延迟为毫秒,比Flatten-Swin低毫秒,准确率高出。还评估了方法在语言建模任务上的表现,并获得了可比的性能和更低的延迟。

miv算法毕业论文 第3篇

巨大的内存消耗一直是在实际应用中部署高吞吐量大型语言模型的主要瓶颈。除了大量参数外,Transformer架构中用于注意力机制的键值(KV)缓存也消耗了大量内存,尤其是当深度语言模型的层数较多时。

论文提出了一种新方法,该方法只计算并缓存少数几层的KV,从而显著节省内存消耗并提高推理吞吐量。

在大型语言模型上的实验表明,与标准Transformer相比,方法在语言建模和下游任务中实现了高达26倍的吞吐量提升,并保持了竞争性的表现。

此外这个方法与现有的Transformer节省内存技术是正交的,因此将它们与论文的模型集成非常简单,还可以进一步提高推理效率。

miv算法毕业论文 第4篇

通过利用大型语言模型(LLMs)的能力,最近的大型多模态模型(LMMs)在开放世界的多模态理解方面显示出了显著的多功能性。

但是它们通常参数量大且计算密集,因此限制了在资源受限场景下的应用性。为此连续提出了几种轻量级的LMMs,以在受限规模下(例如,3B)最大化能力。

尽管这些方法取得了不错的结果,但它们大多只关注设计空间的一两个方面,且影响模型能力的关键设计选择尚未得到彻底研究。这篇论文从模型架构、训练策略和训练数据的角度对轻量级LMMs进行了系统研究。

基于论文的发现,开发了Imp——一个在2B-4B规模上高度能力的LMMs模型。Imp-3B模型稳定地超过了所有相似大小的现有轻量级LMMs,甚至超过了13B规模的最新技术水平的LMMs。

通过低位量化和分辨率降低技术,Imp模型可以在高达约13 tokens/s的推理速度下部署在高通骁龙8Gen3移动芯片上。

miv算法毕业论文 第5篇

低秩适应是一种流行的、用于大型语言模型的高效微调方法。论文分析了在LoRA中实现的低秩更新的影响。

发现表明,低秩更新机制可能限制了LLMs有效学习和记忆新知识的能力。受此启发提出了一种名为MoRA的新方法,该方法采用正方形矩阵实现高秩更新,同时保持可训练参数的数量不变。

为实现这一点,引入了相应的非参数操作符来减小输入维度并增加正方形矩阵的输出维度。这些操作符确保了权重可以合并回LLMs,这意味着这个方法可以像LoRA一样部署。

论文对提出的方法进行了全面评估,涵盖五个任务:指令调整、数学推理、持续预训练、记忆和预训练。方法在记忆密集型任务上表现优于LoRA,并在其他任务上实现了可比的性能。

miv算法毕业论文 第6篇

Lean 彻底改变了数学证明验证的方式,确保了高精度和可靠性。尽管大型语言模型(LLMs)在数学推理方面表现出前景,但它们在形式定理证明的进步受到训练数据不足的阻碍。

为了解决这个问题,论文引入了一种生成大量 Lean 4 证明数据的方法,这些数据源自高中和本科级数学竞赛题目。这种方法包括将自然语言问题转换为正式声明,过滤掉质量低的声明,并生成证明来创建合成数据。

在这个包含800万个正式声明及其证明的合成数据集上对 DeepSeekMath 7B 模型进行微调后,模型在 Lean 4 miniF2F 测试中实现了的整个证明生成准确率(64个样本),超过了基准的 GPT-4(准确率,64个样本)和一种树搜索强化学习方法()。

此外模型在 Lean 4 国际数学奥林匹克(FIMO)的标准化基准测试中成功证明了148个问题中的5个,而 GPT-4 未能证明任何问题。

这些结果表明,利用大规模合成数据提升 LLMs 的定理证明能力具有潜力。论文后续将提供合成数据集和模型,以便进一步研究这一有前景的领域。

miv算法毕业论文 第7篇

最近的研究提出了线性表征假设:语言模型通过操纵激活空间中的一维概念表征(“特征”)来进行计算。

相比之下,这篇论文则探索一些语言模型表征可能本质上是多维的。首先制定了不可约多维特征的严格定义,这些特征是否能被分解成独立的或不共现的低维特征。

受这些定义的启发,设计了一种可扩展的方法,使用稀疏自编码器在GPT-2和Mistral 7B中自动寻找多维特征。这些自动发现的特征包括一些极具解释性的例子,例如代表一周中的日子和一年中的月份的圆形特征。

确定了使用这些确切的圆形来解决涉及一周中的日子和一年中的月份的模块算术计算问题的任务。

最后通过在Mistral 7B和Llama 3 8B上进行干预实验,提供证据表明这些圆形特征确实是这些任务中的计算基本单元,并通过将这些任务的隐藏状态分解成可解释的组件,找到了更多的圆形表征。

miv算法毕业论文 第8篇

键值(KV)缓存在加速基于Transformer的自回归大型语言模型(LLMs)的解码过程中扮演着至关重要的角色。然而长序列长度和大批量大小所需存储KV缓存的内存量可能变得过大。

自Transformer发明以来,减小KV缓存大小的两种最有效的干预措施是多查询注意力(Multi-Query Attention,MQA)及其泛化形式,分组查询注意力(Grouped-Query Attention,GQA)。

MQA和GQA都修改了注意力模块的设计,使得多个查询头可以共享一个键/值头,大幅减少了不同键/值头的数量,同时只对准确度造成最小的影响。

论文展示了可以进一步发展多查询注意力,通过在相邻层之间共享键和值头,提出了一种新的注意力设计,称之为跨层注意力(Cross-Layer Attention,CLA)。通过CLA可以再将KV缓存的大小减少2倍,同时几乎保持与未修改的MQA相同的准确度。

在从头开始训练的1B和3B参数模型的实验中,证明了CLA在内存/准确度权衡方面提供了帕累托改进,相较于传统的MQA,能够实现更长序列长度和更大批量大小的推理,这在其他情况下是不可能的。

抱歉,评论功能暂时关闭!