首页 技术 正文
技术 2022年11月15日
0 收藏 460 点赞 4,886 浏览 1500 个字
import pymongoclient = pymongo.MongoClient('localhost', 27017)  # MongoDB 客户端
walden = client['walden'] # 数据库中创建的名称
sheet_tab = walden['sheet_tab'] # 创建Table# 演示代码1
# path = '/Users/qiongyanzhu/Documents/Plan-for-combating-master/week2/2_1/2_1code_of_video/walden.txt'
# with open(path, 'r') as f:
# lines = f.readlines()
# for index, line in enumerate(lines):
# data = {
# 'index': index,
# 'line': line,
# 'words': len(line.split())
# }
# print(data)
# sheet_tab.insert_one(data)# 演示代码2
# for item in sheet_tab.find({'words': 0}):
# print(item)# 演示代码3
# $lt/$lte/$gt/$gte/$ne
for item in sheet_tab.find({'words': {'$lt': 5}}):
print(item)# 演示代码4
for item in sheet_tab.find():
print(item['line'])

  

from bs4 import BeautifulSoup
import requests
import pymongoclient = pymongo.MongoClient('localhost', 27017)
xiaozhu = client['xiaozhu']
sheet_tab = xiaozhu['sheet_tab']url_as = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(number)) for number in range(1, 4)]def insert_house_info(url_s):
for url_a in url_s:
# 获取页面数据
wb_data = requests.get(url_a)
# 采用lxml解析引擎,解析数据
soup = BeautifulSoup(wb_data.text, 'lxml')
prices = soup.select('span.result_price')
titles = soup.select('#page_list > ul > li > div.result_btm_con.lodgeunitname > div > a > span')
urls = soup.select('#page_list > ul > li > div.result_btm_con.lodgeunitname') for price, title, url in zip(prices, titles, urls):
info = {
'price': int(price.get_text()[1:len(price.get_text())-2]),
'title': title.get_text(),
'url': url.get('detailurl')
}
# print(info)
sheet_tab.insert_one(info)def find_house():
for info in sheet_tab.find({'price': {'$gt': 500}}):
print(info)insert_house_info(url_as)
find_house()

  

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,104
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,581
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,428
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,200
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,835
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,918