Blog

Blog

PHODAL

ruby nokogiri ruby解析HTML

这里是用到了nokogiri库,从某HTML里读出内容。不过有意思的是,当我们加上一些特定功能的时候就可以当一个爬虫到处搜索资料了。

Ruby Nokogiri

安装nokogiri,大家都懂的

 gem install nokogiri

Ruby解析HTML

我们想要的是从

phodal  <!--more--> [caption id="attachment_23" align="alignnone" width="240"]<a href="/logo.png"><img class="size-full wp-image-23" alt="CSDN" src="/logo.png" width="240" height="90" /></a>

这段HTML中解析出里面的img标签,于是

 require 'nokogiri'

doc = Nokogiri::HTML('phodal  <!--more--> [caption id="attachment_23" align="alignnone" width="240"]<a href="/logo.png"><img class="size-full wp-image-23" alt="CSDN" src="/logo.png" width="240" height="90" /></a>')

p doc.css('img').first['src']

于是这就是一个简单的示例,如果我们还想从某个网页中抓取我们需要的内容。


require 'rubygems'
require 'nokogiri'
require 'open-uri'

page = Nokogiri::HTML(open("http://www.phodal.com/"))
puts page.css('img').first['src']

用于抓取本网站的第一个带有src的img标签,换句话说就是图片的来源。

而这里是用于解析上一篇中说到的wordpress 微信


require 'json'
require 'net/http'
require 'nokogiri'

post_id = 1
image_response = Net::HTTP.get_response("localhost","/?wpapi=get_posts&dev=1&comment=1&content=1&id="+post_id)
image_response_content = (JSON.parse image_response.body)['posts'][0]['content']
image_req = Nokogiri::HTML(image_response_content).css('img').first['src']

或许您还需要下面的文章:

关于我

Github: @phodal     微博:@phodal     知乎:@phodal    

微信公众号(Phodal)

围观我的Github Idea墙, 也许,你会遇到心仪的项目

QQ技术交流群: 321689806

新书《前端架构:从入门到微前端》

《前端架构:从入门到微前端》是一本围绕前端架构的实施手册,从基础的架构规范,到如何设计前端架构,再到采用微前端架构拆分复杂的前端应用。本书通过系统地介绍前端架构世界的方方面面,来帮助前端工程师更好地进行系统设计。

前端架构包含以下五部分内容:

  • 设计:讲述了架构设计的模式,以及设计和制定前端工作流。
  • 基础:通过深入构建系统、单页面应用原理、前端知识体系等,来构建出完整的前端应用架构体系。
  • 实施:通过与代码结构的方式,介绍如何在企业级应用中实施组件化架构、设计系统和前后端分离架构。
  • 微前端:引入6种微前端的概念,以及如何划分、设计微前端应用,并展示了如何实现这6种微前端架构。
  • 演进:提出更新、迁移、重构、重写、重新架构等架构演进方式,来帮助开发人员更好地设计演进式架构。
comment

Feeds

RSS / Atom

最近文章

关于作者

Phodal Huang

Developer, Consultant, Writer, Designer

ThoughtWorks 高级咨询师

工程师 / 咨询师 / 作家 / 设计学徒

开源深度爱好者

出版有《前端架构:从入门到微前端》、《自己动手设计物联网》、《全栈应用开发:精益实践》

联系我: h@phodal.com

微信公众号: 与我沟通

标签