跳转至

ollama v0.13.1

为什么要使用Ollama

你是否厌倦了在云端AI的迷宫中徘徊?受够了高昂的费用、迟滞的响应,以及那份将敏感数据托付给未知服务器的隐隐不安?我们正站在一个矛盾的十字路口:一方面,我们渴望大语言模型(LLM)那近乎魔法的创造力与智能;另一方面,我们又因成本、隐私和延迟而却步,仿佛被一道无形的屏障隔绝在魔法之外。

Ollama的出现,正是为了击碎这面墙。它不是什么遥不可及的未来科技,而是一把今天就能握在手中的钥匙。使用Ollama,意味着你将夺回控制权。它让你能在自己的笔记本、工作站甚至家庭服务器上,轻松运行诸如Llama 3、Mistral、Qwen等强大的开源模型。想象一下:无需网络连接,零延迟地与你私人的AI助手对话;无需担心API调用次数,无限次地探索与迭代;你的每一次提示、每一份数据,都只留在你的硬盘上,成为绝对的隐私。

这不仅是技术的选择,更是一次立场的宣言:在AI民主化的浪潮中,你是选择继续做被动的服务消费者,还是成为主动的构建者和主宰者?Ollama邀请你选择后者。

Ollama是什么

简而言之,Ollama是一个让你能在本地计算机上一键下载、运行和管理开源大语言模型的工具

你可以把它想象成 macOS 上的 Homebrew,或是 Python 领域的 Pip,但它是专门为大型AI模型而生的。它通过简单的命令行,将复杂的模型部署、运行过程封装成诸如 ollama run llama3 这样的直观指令,让任何人都能轻松在本地启动一个功能完备的AI对话界面或API服务。

入门示例

让我们置身于一个真实的场景:

场景:你是一名独立开发者,想为你正在开发的新概念笔记应用添加一个“智能总结”功能。你希望它能快速理解用户输入的长篇会议记录,并提炼出核心要点和待办事项。使用云服务API要么太贵,要么无法满足数据不离线的安全要求。

行动: 1. 安装:从Ollama官网下载对应你操作系统(macOS、Linux、Windows)的安装包,几分钟内完成安装。 2. 拉取模型:打开终端,输入命令 ollama pull qwen2.5:7b。这个命令会从Ollama的模型库中下载性能优异且轻量的通义千问2.5 7B参数模型。 3. 运行与交互:下载完成后,输入 ollama run qwen2.5:7b。瞬间,一个交互式聊天界面在终端中打开。 4. 开发集成:你不必一直待在命令行里。在同一终端启动模型服务后,它同时会在 http://localhost:11434 提供一个与OpenAI API兼容的接口。在你的笔记应用代码中,你可以这样调用:

import requests
import json

def summarize_with_ollama(text):
    response = requests.post(
        'http://localhost:11434/api/generate',
        json={
            'model': 'qwen2.5:7b',
            'prompt': f'请将以下文本总结为不超过3个要点的清单和待办事项列表:\n{text}',
            'stream': False
        }
    )
    return response.json()['response']

# 使用示例
meeting_notes = 今天会议主要讨论了三个问题首先是Q2财报显示营收增长15%但利润率下降需要成本控制方案其次新产品星图的发布日期从6月推迟到8月需要更新市场计划最后团队决定启动远程办公效率调研由人事部牵头下周五前出初步报告。”
summary = summarize_with_ollama(meeting_notes)
print(summary)

顷刻之间,一个完全运行在你本地、由你掌控的AI大脑,就为你的应用注入了智能。没有账单,没有网络延迟,只有纯粹的创造力和控制力。

Ollama v0.13.1版本更新了什么

根据官方发布日志,v0.13.1版本主要带来了以下关键改进: 1. 将 nomic-embed-text 嵌入模型的默认运行引擎切换为 Ollama 自家引擎,有望提升其性能和整合度。 2. 为 cogito-v2.1 模型新增了工具调用功能支持,增强了该模型的复杂任务处理能力。 3. 修复了CUDA VRAM(显存)发现机制的相关问题,提升了在NVIDIA GPU环境下的稳定性和资源识别准确性。 4. 修正了Ollama应用程序中指向文档的链接,改善了用户体验。 5. 此次更新属于小版本迭代,主要聚焦于特定模型的功能增强和已知问题的修复。

更新日志

What‘s Changed

  • nomic-embed-text 模型现在将默认使用 Ollama 自身的引擎。
  • 增加了对 cogito-v2.1 模型的工具调用功能支持。
  • 修复了 CUDA VRAM 发现相关的问题。
  • 修正了 Ollama 应用程序中指向文档的链接。

完整更新日志: v0.13.0...v0.13.1-rc0

总结

简而言之,Ollama v0.13.1 是一次聚焦于“优化与修复”的更新,核心在于提升特定模型(nomic-embed-textcogito-v2.1)的体验与能力,并解决了底层GPU资源管理的一个关键问题,使整个平台运行更为稳健顺畅。