爱博体育appruby获取网页链接,web导出excel文件的二种方式

ruby获取网页链接,下载excel文件

 

需求:

获取http://123.57.212.98/html/tm/29/38/68/68.html网站的历届詹天佑奖的excel名单,并且把excel格式转换为csv格式。

第一步
首先取获得此页面所有的excel表个文本的连天,并且下载到本地,思路是用一个行列来放符合需要的具备链接,从队头取出链接,按照这一个链接获得一个新的页面page,再分析此page,把此页面的装有有用的链接放入如队列。直到队列为空。(那里有用的链接是能够到达
可以获取excel文件的页面)

require "yomu"
require "mechanize"
require "open-uri"

$queue=[]
$queueFile=[]
$queue.push({"zhantianyou" => 'http://123.57.212.98/html/tm/29/38/68/68.html'})
=begin 
    下载所有文件的思路:
    有一个入口的URl,和一个队列,队列中最开始只有一个此入口url,
    根据这个url,获取此页面的所有链接,把链接放到队列中,同时过滤出来 需要的表格url,把表格url保存下来。

=end


    # queue对列中放的是一个 {网页标题 => 网页url } 的散列
while !$queue.empty?
    url=""
    $queue.shift.each_value do |value|
        url=value
    end
   begin
    page=Mechanize.new.get(url)
   rescue 
       puts "---------------------->>>>  #{url} 不能访问"
   end

    page.links.each do |link|
        if link.text.include?('.xls')# 将有用的表格url存起来
            puts link.text
            $queueFile.push({link.text => link.href})
        elsif link.text.include?('詹天佑奖获奖工程及获奖单位名单') || link.text.include?('下一页')# 有用的链接放到队列中,便于下一次访问
            #puts link.text
            $queue.push({link.text=>link.href})
        end
    end
end

# 根据 url 下载到本地
while !$queueFile.empty?
    url=$queueFile.shift
    url.each do |key,value|
        puts key
        File.open('./'+key,"w") do |io|
            io.puts(open(value).read)
        end
    end
end

第二步
excel文件能够平素另存为csv文件,不过格式不是太好,并且会莫名奇妙的少一些数额,后来发觉还是可以把excel文件另存为html
文件,那样试了试,发现转成的html文件的格式很好,数据也从没不当,格外适合提取有用的音讯。看上面的代码

require "yomu"
require "nokogiri"
def getContent(page,dir,io)
    puts dir
    # 得到历届詹天佑奖的时间
    dir =~ /第.+?届/
    title = $&
    dir =~ /[0-9][0-9][0-9][0-9]年度/
    title1=$&
    if title1==nil
        title1=""
    end

    title+=title1
    line=[]
    temp=""
    i=0
    # 获取含符合规范的td,  下面xpath的意思: 匹配含有rowspan 属性的td,或者 不含rowspan 以及 不含colspan 属性的td
    # 为了展现xpath not 的用法,下面的语句有些多余
    page.xpath("//td[ @rowspan or not(@rowspan or @colspan) ]").each do |td|
        # 去掉一些不需要的内容,如表头,
        if td.content =~ /[0-9]$/ || !td.to_s.include?('x:str') || td.content =~ /序号|工程名称|参建单位|编号/
            next
        end
        if td.to_s.include?('rowspan')# 代表着一行开始了
            temp.slice!(-1)# 删除最后一个顿号
            temp.gsub!(/[0-9]-/,"")# 剔除多余的字符
            i+=1
            if i>1# i==1 代表着此表的第一行,由于同一列分布在多行,只有处理到下一行的开始部分才把这一行的数据写入文件,所以i==1时,第一行的数据还没有结束,不能写入文件
                io.puts(temp+","+title.to_s)# 将此行写入文件
                puts "#{i}   #{temp},#{title.to_s}"
            end
            temp=""
            temp <<td.content+","
        else
            temp<<td.content+"、"# 把分布在多行的列连接成一行
        end
    end
    # 处理最后一行数据
    temp.slice!(-1)
    temp.gsub!(/[0-9]-/,"")
    io.puts(temp+","+title.to_s)# 把最后一行的数据写入文件
    puts "#{i+1}   #{temp},#{title.to_s}"
end

io=File.open("./詹天佑奖.csv","w+")# 准备写入数据的文件
io.puts("工程名称,参建单位,时间")# th
Dir.open("./詹天佑/詹天佑html/").each do |dir|# 遍历此文件夹下的所有文件
    if dir=="."||dir==".."# 过滤本目录和上级目录
        next
    end
    f=File.open('./詹天佑/詹天佑html/'+dir)
    page=Nokogiri::HTML(f)
    getContent(page,dir,io)
    f.close
end
io.close

总的看,三种艺术:服务器端生成和浏览器端生成。

爱博体育app,总结:

开头须要把excel表格文件转换为csv文件时,都是直接把excel文件另存为csv文件,最终再处理格式,

其实转换为html文件更有益于处理局地。

服务器端生成就是:依照用户请求,获取相应的多少,使用poi/jxl,
jacob/jawin+excel,或是用多少拼html的table或是cvs纯文本的数据格式等。然后按.xls或是.cvs格式的公文的样式重回给用户,指定Content-Type:application/vnd.ms-excel
,浏览器就会唤起要下载的文本是excel文件。

poi/jxl,
jacob/jawin生成的是excel的biff格式。html/csv的是文本格式,不另存为excel文件,很多excel成效是用持续的。jacob/jawin须要服务器端是windows系统,且安装了excel2000以上版本。poi/jxl和html/csv方式的话,服务器端可以跨平台。

浏览器端生成excel文件还尚无尤其完善的方案,那是因为js不可以处理二进制。差不多有以下多少个方案,各有利弊。

1.
activex方式:使用js/vbs调用excel对象,http://setting.iteye.com/blog/219302,有个extjs的gridpanel导出为excel的例子。
(ie+excel)

2.
ie命令艺术:将html或是csv输出到open的window,然后使用execCommand的saveas命令,存为csv或xls。
(ie6 only)

3.
劳务器端中转格局:将html的table或是拼接的csv传到服务器端,服务器端再按照Content-Type:application/vnd.ms-excel再次回到,浏览器就会按excel格局处理。与服务器端拼接相比较,少了五回取数操作。
(all)

  1. data协议格局:对于辅助data协议的浏览器,可以将html或是csv先用js
    base64处理,然后前缀data:application/vnd.ms-excel;base64,,即可使浏览器将其中的数量当做excel来拍卖,浏览器将唤起下载或打开excel文件,可惜的是ie不援救。extjs的官网有一个grid的plugin,已毕导出xhtml格式的伪excel文件,就是那样做的。
    (except IE)

浏览器端只有首先种方案导出的是实在的biff格式的excel文件,其余艺术都是文本格式。activex方式只可以在windows平台的ie浏览器接纳,而且亟需下跌ie的安全性,所以采纳相比较单薄。复杂的excel文件,仍然在劳动器端用poi/jxl生成excel相比较好。如果浏览器固定位ie6,浏览器端情势2是最好的方案。借使要大跌服务器端cpu的估计压力,客户端方案3可行,而且跨平台(比poi/jxl格局少了取数和生成二进制文件)。固然是非ie浏览器,方案4也真是一种好办法。

 

ps: 还有一个方案,就是让安装了ie和excel的用户在网页上右键,点击“导出到
Microsoft
Excel”,然后可以选取要导出的table区域,点“导入”按钮,完结导入。

相关文章