聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

自己动手做聊天机器人 二十八-脑洞大开:基于美剧字幕的聊天语料库建设方案 大数据

2016-10-19 23:50 浏览: 5870 次 我要评论(0 条) 字号:

本文转载自:www.shareditor.com

原文链接: 自己动手做聊天机器人 二十八-脑洞大开:基于美剧字幕的聊天语料库建设方案 大数据

要让聊天机器人进行学习,需要海量的聊天语料库,但是网上的语料库基本上都是有各种标注的文章,并没有可用的对话语料,虽然有一些社区的帖子数据,但是既要花大把银子还不知道质量如何。笔者突然灵机一动,找到一个妙招能获取海量高质聊天语料,这下聊天机器人再也不愁语料数据了。

美剧字幕

是的,你没有看错,我就是这样获取海量高质聊天语料的。外文电影或电视剧的字幕文件是一个天然的聊天语料,尤其是对话比较多的美剧最佳。为了能下载大量美剧字幕,我打算抓取字幕库网站www.zimuku.net,当然你也可以选择其他网站抓取。

自动抓取字幕

有关爬虫相关内容请见我的另一篇文章《 教你成为全栈工程师(Full Stack Developer) 三十-十分钟掌握最强大的python爬虫 》。在这里我直接贴上我的抓取器重要代码(代码共享在了 https://github.com/warmheartli/ChatBotCourse ):

# coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import scrapy
from w3lib.html import remove_tags
from subtitle_crawler.items import SubtitleCrawlerItem

class SubTitleSpider(scrapy.Spider):
name = "subtitle"
allowed_domains = ["zimuku.net"]
start_urls = [
"http://www.zimuku.net/search?q=&t=onlyst&ad=1&p=20",
"http://www.zimuku.net/search?q=&t=onlyst&ad=1&p=21",
"http://www.zimuku.net/search?q=&t=onlyst&ad=1&p=22",
]

def parse(self, response):
hrefs = response.selector.xpath('//div[contains(@class, "persub")]/h1/a/@href').extract()
for href in hrefs:
url = response.urljoin(href)
request = scrapy.Request(url, callback=self.parse_detail)
yield request

def parse_detail(self, response):
url = response.selector.xpath('//li[contains(@class, "dlsub")]/div/a/@href').extract()[0]
print "processing: ", url
request = scrapy.Request(url, callback=self.parse_file)
yield request

def parse_file(self, response):
body = response.body
item = SubtitleCrawlerItem()
item['url'] = response.url
item['body'] = body
return item

下面是pipeline.py代码:

<code class="language-python hljs "><span class="hljs-class"><span class="hljs-keyword">class</span> <span class="hljs-title">SubtitleCrawlerPipeline</span><span class="hljs-params">(object)</span>:</span>
<span class="hljs-function"><span class="hljs-keyword">def</span> <span class="hljs-title">process_item</span><span class="hljs-params">(self, item, spider)</span>:</span>
url = item[<span class="hljs-string">'url'</span>]
file_name = url.replace(<span class="hljs-string">'/'</span>,<span class="hljs-string">'_'</span>).replace(<span class="hljs-string">':'</span>,<span class="hljs-string">'_'</span>)
fp = open(<span class="hljs-string">'result/'</span>+file_name, <span class="hljs-string">'w'</span>)
fp.write(item[<span class="hljs-string">'body'</span>])
fp.close()
<span class="hljs-keyword">return</span> item</code>

看下我抓取的最终效果

<code class=" hljs ruby">[root<span class="hljs-variable">@centos</span><span class="hljs-symbol">:~/Developer/ChatBotCourse/subtitle</span> <span class="hljs-variable">$]</span> ls result/|head -<span class="hljs-number">1</span>
http___shooter.zimuku.net_download_265300_Hick.<span class="hljs-number">2011.720</span>p.<span class="hljs-constant">BluRay</span>.x264.<span class="hljs-constant">YIFY</span>.rar
[root<span class="hljs-variable">@centos</span><span class="hljs-symbol">:~/Developer/ChatBotCourse/subtitle</span> <span class="hljs-variable">$]</span> ls result/|wc -l
<span class="hljs-number">82575</span>
[root<span class="hljs-variable">@centos</span><span class="hljs-symbol">:~/Developer/ChatBotCourse/subtitle</span> <span class="hljs-variable">$]</span> du -hs result/
<span class="hljs-number">16</span>G result/</code>

字幕文件的解压方法

linux下怎么解压zip文件

直接执行unzip file.zip即可

linux下怎么解压rar文件

http://www.rarlab.com/download.htm

wget http://www.rarlab.com/rar/rarlinux-x64-5.4.0.tar.gz

tar zxvf rarlinux-x64-5.4.0.tar.gz

./rar/unrar试试

解压命令:

unrar x file.rar

linux下怎么解压7z文件

http://downloads.sourceforge.net/project/p7zip下载源文件,解压后执行make编译后bin/7za可用,用法

bin/7za x file.7z

最终字幕的处理方式

有关解压出来的文本字幕文件的处理,我后面的文章会详细讲解如何分词、如何组合,敬请期待。

微信扫一扫,关注我爱机器学习公众号

微博:我爱机器学习



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复