Skip to content

Hugging Face 使用指南

1. Hugging Face 简介

Hugging Face 是一个面向机器学习和 NLP 的开源社区和平台,提供了大量预训练模型、数据集和工具。通过 Hugging Face CLI,我们可以方便地下载和管理这些资源。

2. 安装 Hugging Face CLI

2.1 使用 pipx 安装

推荐使用 pipx 安装 huggingface-cli,这样可以将其隔离在独立的虚拟环境中:

bash
pipx install huggingface-cli

2.2 使用 pip 安装

也可以使用 pip 直接安装:

bash
pip install -U "huggingface_hub[cli]"

3. 登录 Hugging Face

3.1 基本登录

通过 Access Token 登录:

bash
huggingface-cli login

执行命令后,系统会提示你输入 Access Token。你可以从 https://huggingface.co/settings/tokens 获取 Token。

3.2 使用代理登录

如果需要通过代理访问 Hugging Face,可以设置代理环境变量:

bash
huggingface-cli login

可设置代理:

bash
HTTPS_PROXY=http://127.0.0.1:15732 huggingface-cli login

根据你的代理配置,修改代理地址和端口。

3.3 配置 Git 凭证

登录后,建议保存 Git 凭证以便后续操作。如果自动保存失败,可以手动开启 Git 凭证保存:

bash
git config --global credential.helper store

或者在登录时直接添加到 Git 凭证:

bash
huggingface-cli login --add-to-git-credential

4. 常用操作

4.1 下载模型

下载指定的模型到本地:

bash
huggingface-cli download <model-id>

4.2 上传文件

上传文件到你的模型仓库:

bash
huggingface-cli upload <repo-id> <local-path>

4.3 列出文件

查看仓库中的文件列表:

bash
huggingface-cli scan-cache

5. 在 Python 中使用

5.1 加载模型

python
from transformers import AutoModel, AutoTokenizer

model_name = "bert-base-chinese"
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

5.2 使用本地缓存

Hugging Face 会自动缓存下载的模型,默认位置在 ~/.cache/huggingface/。你也可以通过环境变量 HF_HOME 自定义缓存位置:

bash
export HF_HOME=/path/to/cache

5.3 离线模式

如果需要在离线环境中使用已下载的模型:

python
from transformers import AutoModel

model = AutoModel.from_pretrained(
    "bert-base-chinese",
    local_files_only=True
)

6. 注意事项

使用 Hugging Face 时需要注意:

  1. 访问权限:某些模型需要申请访问权限才能下载
  2. 存储空间:大型模型可能占用数 GB 空间,注意磁盘容量
  3. 网络环境:在国内访问可能较慢,建议使用镜像或代理
  4. Token 安全:不要将 Access Token 提交到版本控制系统

7. 参考资料