NLTK附带了许多语料库、玩具语法、培训过的模型等。完整的列表发布在:http://nltk.org/nltk_data/
要安装数据,首先安装nltk(请参见http://nltk.org/install.html),然后使用nltk的数据下载程序,如下所述。
除了个别的数据包之外,您还可以下载整个集合(使用“all”),或者只下载本书中的示例和练习所需的数据(使用“book”),或者只下载语料库,而不下载语法或经过培训的模型(使用“all语料库”)。
交互式安装程序
For central installation on a multi-user machine, do the following from an administrator account.
运行python解释器并键入以下命令:
>>> import nltk>>> nltk.download()应该打开一个新窗口,显示NLTK下载程序。单击“文件”菜单并选择“更改下载目录”。对于中央安装,将此设置为
C:\nltk_data
(Windows)/usr/local/share/nltk_data
(MAC),或/usr/share/nltk_data
(UNIX)。接下来,选择要下载的包或集合。如果没有将数据安装到上述中心位置之一,则需要设置
NLTK_DATA
用于指定数据位置的环境变量。(在Windows计算机上,右键单击“我的电脑”,然后选择Properties > Advanced > Environment Variables > UserVariables > New...
)测试数据是否已安装,如下所示。(假设您下载了布朗语料库):
>>> from nltk.corpus import brown>>> brown.words()['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]通过代理Web服务器安装
如果您的Web连接使用代理服务器,则应按以下方式指定代理地址。如果是身份验证代理,请指定用户名和密码。如果代理设置为“无”,则此函数将尝试检测系统代理。
>>> nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))>>> nltk.download()命令行安装
下载程序将搜索现有的
nltk_data
安装NLTK数据的目录。如果其中一个不存在,它将尝试在中心位置(使用管理员帐户时)或用户的文件空间中创建一个。如有必要,从管理员帐户或使用sudo运行下载命令。建议的系统位置是C:\nltk_data
(窗口);/usr/local/share/nltk_data
(MAC);/usr/share/nltk_data
(UNIX)。你可以使用-d
用于指定其他位置的标志(但如果执行此操作,请确保设置NLTK_DATA
相应的环境变量)。运行命令
python -m nltk.downloader all
. 要确保中央安装,请运行命令sudo python -m nltk.downloader -d/usr/local/share/nltk_data all
.Windows:使用“开始”菜单上的“运行…”选项。Windows Vista用户需要首先打开此选项,使用
Start ->Properties -> Customize
选中复选框以激活“运行…”选项。测试安装:通过登录到用户帐户、启动python解释器和访问brown文集(请参见上一节),检查用户环境和权限是否设置正确。
手动安装
创建文件夹
nltk_data
,例如C:\nltk_data
或/usr/local/share/nltk_data
和子文件夹chunkers
,grammars
,misc
,sentiment
,taggers
,corpora
,help
,models
,stemmers
,tokenizers
.从下载单个包
http://nltk.org/nltk_data/
(请参阅“下载”链接)。将它们解压缩到相应的子文件夹。例如,褐色语料库,发现于:https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip
将被解压到nltk_data/corpora/brown
.设置你的
NLTK_DATA
环境变量指向您的顶层nltk_data
文件夹。
- 本地下载(推荐): 本地下载