首页 技术 正文
技术 2022年11月15日
0 收藏 835 点赞 3,373 浏览 1465 个字

第三方库

pandassklearn

数据集

来自于达观杯训练:train.txt
测试:test.txt

概述

TF-IDF 模型提取特征值
建立逻辑回归模型

代码

# _*_ coding:utf- _*_# 简单文本分类实现
import time
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizerprint("start......")
time_start=time.time()# ()加载数据 - 利用pandas读取cvs中数据
df_train = pd.read_csv("D:/train.txt")
df_test=pd.read_csv("D:/test.txt")
# [1.1]数据处理 - 根据个人对算据的分析
# 本次实验 - 删除'article','id'列
df_train.drop(columns=['article','id'],inplace=True)
df_test.drop(columns=['article'],inplace=True)# ()特征提取
"""
特征是什么:选取一些“重要元素”标识一个文本
特征选取:抽取关键特征值(TF-IDF,LDA..),原因:特征太多,构成的特征向量计算机非常难处理(内存空间,时间)
一个类别如何标识:文本(多个)+特征(多个)=>[二维向量] --- 标识一个类别
"""
# TF-IDF 模型
# sklearn 提取文本特征
# []TfidfVectorizer
# []CountVectorizer 文本特征提取方法 - 文本中的词语转换为词频矩阵
# 词频矩阵 - 矩阵元素a[i][j] 表示j词在第i个文本下的词频# sklearn - CountVectorizer
vectorizer=CountVectorizer(ngram_range=(, ), min_df=,max_df=0.9, max_features=)
vectorizer.fit(df_train['word_seg'])
#训练和测试的词频向量格式保持一致
x_train=vectorizer.transform(df_train['word_seg'])
x_test=vectorizer.transform(df_test['word_seg'])
y_train = df_train['class']-# sklearn - TfidfVectorizer
# ()分类模型 - 逻辑回归模型
# modal :LogisticRegression
lg = LogisticRegression(C=, dual=True,solver='liblinear',multi_class='ovr')
lg.fit(x_train, y_train)# ()预测
y_test = lg.predict(x_test)# ()结果展示
df_test['class'] = y_test.tolist()
df_test['class'] = df_test['class'] +
df_result = df_test.loc[:, ['id', 'class']]
df_result.to_csv('D:/result.csv', index=False)time_end=time.time()
print("running time={}".format(time_end-time_start))
print("end......")
相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,083
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,558
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,407
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,180
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,816
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,899