自然语言处理nltk_data-gh-pages模块下载

摘要

NLTK附带了许多语料库、玩具语法、培训过的模型等

NLTK附带了许多语料库、玩具语法、培训过的模型等。完整的列表发布在:http://nltk.org/nltk_data/

要安装数据,首先安装nltk(请参见http://nltk.org/install.html),然后使用nltk的数据下载程序,如下所述。

除了个别的数据包之外,您还可以下载整个集合(使用“all”),或者只下载本书中的示例和练习所需的数据(使用“book”),或者只下载语料库,而不下载语法或经过培训的模型(使用“all语料库”)。

交互式安装程序

For central installation on a multi-user machine, do the following from an administrator account.

运行python解释器并键入以下命令:

>>> import nltk>>> nltk.download()

应该打开一个新窗口,显示NLTK下载程序。单击“文件”菜单并选择“更改下载目录”。对于中央安装,将此设置为 C:\nltk_data (Windows) /usr/local/share/nltk_data (MAC),或 /usr/share/nltk_data (UNIX)。接下来,选择要下载的包或集合。

如果没有将数据安装到上述中心位置之一,则需要设置 NLTK_DATA 用于指定数据位置的环境变量。(在Windows计算机上,右键单击“我的电脑”,然后选择 Properties > Advanced > Environment Variables > UserVariables > New... )

测试数据是否已安装,如下所示。(假设您下载了布朗语料库):

>>> from nltk.corpus import brown>>> brown.words()['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

通过代理Web服务器安装

如果您的Web连接使用代理服务器,则应按以下方式指定代理地址。如果是身份验证代理,请指定用户名和密码。如果代理设置为“无”,则此函数将尝试检测系统代理。

>>> nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))>>> nltk.download()

命令行安装

下载程序将搜索现有的 nltk_data 安装NLTK数据的目录。如果其中一个不存在,它将尝试在中心位置(使用管理员帐户时)或用户的文件空间中创建一个。如有必要,从管理员帐户或使用sudo运行下载命令。建议的系统位置是 C:\nltk_data (窗口); /usr/local/share/nltk_data (MAC); /usr/share/nltk_data (UNIX)。你可以使用 -d 用于指定其他位置的标志(但如果执行此操作,请确保设置 NLTK_DATA 相应的环境变量)。

运行命令 python -m nltk.downloader all . 要确保中央安装,请运行命令 sudo python -m nltk.downloader -d/usr/local/share/nltk_data all .

Windows:使用“开始”菜单上的“运行…”选项。Windows Vista用户需要首先打开此选项,使用 Start ->Properties -> Customize 选中复选框以激活“运行…”选项。

测试安装:通过登录到用户帐户、启动python解释器和访问brown文集(请参见上一节),检查用户环境和权限是否设置正确。

手动安装

创建文件夹 nltk_data ,例如 C:\nltk_data 或 /usr/local/share/nltk_data 和子文件夹 chunkers , grammars , misc, sentiment , taggers , corpora , help , models , stemmers , tokenizers .

从下载单个包 http://nltk.org/nltk_data/ (请参阅“下载”链接)。将它们解压缩到相应的子文件夹。例如,褐色语料库,发现于: https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip 将被解压到 nltk_data/corpora/brown .

设置你的 NLTK_DATA 环境变量指向您的顶层 nltk_data 文件夹。