论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>毕业论文>范文阅读
快捷分类: python参考文献 python批量下载论文 python论文参考文献 python外文文献与翻译

关于Python论文范文 利用Python语言爬取农产品网站技术相关论文写作参考文献

分类:毕业论文 原创主题:Python论文 更新时间:2024-01-18

利用Python语言爬取农产品网站技术是关于Python方面的的相关大学硕士和相关本科毕业论文以及相关如何学好python论文开题报告范文和职称论文写作参考文献资料下载。

一、刖吾

我国政府非常重视农业的信息化建设,农业信息化已有30多年的历史,特别是近几年,基于物联网技术、传感器、移动通信、云计算等技术为基础的智慧农业等的发展,农业的信息化建设已经融入到农业产业的各个领域.

随着农业信息量的加大,如何利用数据爬取的方法,帮助农业信息需求者从已存在的海量数据中快速定位自身需求的信息,从而使需求与信息匹配,最大程度的发挥农业信息对农业经济的支撑和引导作用是一个研究点.

二、技术研究

从海量的数据中爬取需要的数据并入库是本研究的重点,以从农业信息网( WWW.nongnet.com)获取“苹果”信息为例进行接下来的研究.从农业信息需要者的视角登录并访问该网站,打开任意1条“苹果”的农业信息,需要从首页开始依次点击“水果”一>“苹果”,并点击大图列表才能进入具体的页面.这个过程是非常繁琐和低效的.对有信息需求者而言,最关注的的就是三个信息,即联系人,联系方式和地址,可以看到对应网站上的条目分别是“联系人”、“手机号码”、“所在地区”.加上要查找信息的条件,即“产品品种”,相当于对于任何来自于该网站的信息,最关键的只需要首先获取者以上4条信息即可.

接下来利用python编写一段程序,将该网站下的基于以上4个关键字段进行网页爬取.部分代码如下:

resp等于requests.get(url,timeout等于30)

resp.encoding等于 "utf-8"

print(resp.status_code)

products等于 re.findall(r"pic_divxinxi_ title.+?‘, resp.text, re.l)

# print(products)

for j in range(0, len(products》:

producturl等于re.findall(r"http:.+?\ aspx‘, products[j], re.l)

purl等于 producturl[0]

print(purl)

resp2等于requests.get(purl,timeout等于30)

resp2.encoding等于 "utf-8"

print(resp2.status_code)

# print(resp2.text)

dw0等于re.findall(r“聯 系 人.+?”.resp2.text, re.l)

sj0等于 re.findall(r“手机号码.+?”.resp2.text, re.l)

pz0等于 re.findall(r"‘产品品种 .+?”.resp2.text, re.l)

dq0等于 re.findall(r“所在地区

.+?”.) resp2.text, re.l)

re模块主要是用于对数据进行匹配,也称为正则表达式模块,通过导入re模块,可以直接调用各种函数来实现正则匹配.其实正则表达式本身就是一种小型的、高度专业化的编程语言,嵌入Python后为其提供更加方便、快捷的支持作用.re模块中常用的功能函数包括compile()、match()、search(). findall()等函数,本程序用到了findall()函数,re.findall遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表.格式:re.findall(pattem, string,flags等于0).

Requests模块是使用Python编写爬虫必备模块,能够帮助我们方便地爬取HTTP站点.其中要想需要爬取的网站发出请求,即使用requests.get(url)函数,

resp等于requests.get(url,timeout等于30)

Http定义了与服务器进行交互的不同方式,这里面就要用到四种最基本的方法GET、POST、PUT、DELETE与之对应.上面的程序用到的requests.get()来读取指定网页的信息,由于只涉及对网站信息的爬取而不会对信息就行修改,正是利用其查询的功能.

完成数据的爬取后的下一步就是数据的入库,因为Python负责前台数据的爬取,而MYSOL只负责后台数据的储存,因此需要有一个中间件完成两者的连接与解释,这里面采用的是第三方的mysql.connector这个中间件.在此之前首先要安装Mysql并创建一个nongnet的用户库,并继续在该用户库下创建一个nong xinxi得表.

Create database nongnet;

Create table nongxinxi

农信息的表要完成信息的存储,根据之前的分析,需要建立包含“联系人”、“手机号码”、“所在地区”、“产品品种”4个字段的表.

然后要将爬到数据入库,必须要获取访问数据库,这时候需要创建一个游标,cur等于 conn.cursor(),然后即可通过该游标操作execute()方法,即可实现将查询到的信息按着字符的格式插入到已经建好的nongnet库下的nongxinxi表中(如图1):

S qli等于“insert into nongxinxivalues(%s,%s,%s,%s)”

cur.execute(sqli,(‘dw’,’ sj’,’pz’,’dq’))

接下来就可以利用数据库的查询功能完成数据的筛选和挖掘了,比如想获得“山东临沂地区”的“苹果”的联系人和手机号码,利用数据库的筛选功能就可以这是就能直观的在结果中看到了.

本次研究了利用大数据领域今年最流行的Python语言和Mysql数据库技术,对中国农产品信息网( www.nongnet.com)进行数据爬取,以一种新的技术帮助信息获取者快速高效的获取信息的一种技术手段.

总结:本文是一篇关于Python论文范文,可作为相关选题参考,和写作参考文献。

参考文献:

1、 利用肢体语言打造双边体育课堂 体育与健康课程是一门动态学科,课堂教学以激起学生运动乐趣,促进学生身心健康发展为目标。在小学体育课堂,教师有效应用肢体语言,特别是教师通过自身肢。

2、 利用词嵌入模型实现基于网站访问日志专利聚类 〔摘 要〕[目的 意义]专利信息是人类科学技术进步的结晶,随着社会的发展,专利信息将为促进科技创新发挥日益重要的作用。利用聚类技术可以将海量专利。

3、 Python语言程序设计课程建设 摘要:Python是目前最热门的程序设计语言之一,可以应用在系统运维、Web编程、网络爬虫、机器学习、数据分析、人工智能等领域。面对国内外很多大。

4、 如何利用计算机技术进行县级机关文书档案管理 【摘要】本文主要研究计算机技术在县级机关单位文书档案管理工作中的应用。县级机关由于办公设施配置的相对落后,导致档案管理工作效率不高,重复劳动多,。

5、 信息技术在档案开发利用中应用策略 【摘要】随着科学技术的不断发展,我国现阶段已经进入到“互联网+”时代,在这样的时代背景下,充分利用信息技术发展带来的优势,促进档案资源的开发与利。