公告版位

目前分類:從EXCEL VBA自動化到Python (5)

瀏覽方式: 標題列表 簡短摘要

 分享用ChatGPT產生Python網路爬蟲程式到底行不行

相關課程:ChatGPT輔助EXCEL VBA網路爬蟲與圖表繪製班
https://ojt.wda.gov.tw/ClassSearch/Detail?OCID=157308&plantype=1

繼之前那篇分享文:

[分享用ChatGPT產生網路爬蟲VBA程式超簡]

想來和大家分享用ChatGPT產生Python網路爬蟲程式到底行不行的問題,

首先,一般認知理論上ChatGPT產生程式應該沒有問題,但到底能不能用,

或是改怎麼用,這更是重要,本文沒有預設立場,結果其實不如預期,

雖說產生的程式碼看起來實在很"華麗",

但很多陷阱若是大不出問題,自然程式依舊無法正確執行,

我這邊分享幾個我看到的問題,與修正方式。

先提供用ChatGPT生成Python程式下載資料

分享用ChatGPT產生Python網路爬蟲程式到底行不行

請幫撰寫Python程式,下載網址:https://www.lotto-8.com/listltobigbbk.asp?indexpage=1&orderby=new,並存成CSV檔案

ChatGPT生成的程式碼:

import requests

from bs4 import BeautifulSoup

import pandas as pd

# 下載網頁內容

url = 'https://www.lotto-8.com/listltobigbbk.asp?indexpage=1&orderby=new'

response = requests.get(url)

response.encoding = 'big5'  # 指定編碼以避免亂碼

# 確認請求成功

if response.status_code == 200:

    # 解析 HTML

    soup = BeautifulSoup(response.text, 'html.parser')

    # 提取資料

    # 根據頁面結構進行解析,這裡假設表格在 <table> 標籤內

    table = soup.find('table')  # 假設第一個 <table> 標籤就是我們需要的表格

    rows = table.find_all('tr')  # 找到所有的行

    # 準備資料存儲

    data = []

    # 解析行

    for row in rows:

        cols = row.find_all('td')

        cols = [ele.text.strip() for ele in cols]

        data.append(cols)

    # 將資料轉換成 DataFrame

    df = pd.DataFrame(data)

    # 將 DataFrame 存成 CSV 檔案

    df.to_csv('lotto_data.csv', index=False, header=False, encoding='utf-8-sig')

    print("資料已成功存儲到 lotto_data.csv")

else:

    print(f"無法下載網頁內容,狀態碼: {response.status_code}")

修正程式碼:

import requests

from bs4 import BeautifulSoup

# 設置目標URL

url = 'https://www.lotto-8.com/listltobigbbk.asp?indexpage=1&orderby=new'

# 發送HTTP GET請求

response = requests.get(url)

# 確保請求成功

if response.status_code == 200:

    # 解析HTML內容

    soup = BeautifulSoup(response.content, 'html.parser')

    # 找到包含彩票數據的表格

    table = soup.find('table', "auto-style4")  # 修改這裡以匹配實際表格的class屬性

    S=""

    for tr in table.find_all('tr'):

        cells = tr.find_all('td')

        print(cells[0].text+","+cells[1].text+","+cells[2].text)

        S=S+cells[0].text+","+cells[1].text+","+cells[2].text+"\n"

    f=open("E:\\大樂透.csv","w",encoding="utf-8")

    f.write(S)

    f.close()

else:

    print(f'Failed to retrieve data: {response.status_code}')

結論:

ChatGPT目前生成的程式是很好的範本,但通常有一些程式錯誤需要修正,

例如本範例的

1.找出類別名稱:soup.find('table', "auto-style4")。

 

2.改用檔案物件取代相較複雜pandas模組。

因此,看懂HTML語法的標籤與類別,
找出擷取資料的規則是很重要的,目前這點AI無法取代。
其次,使用那種模組比較恰當,這點也是AI的罩門,
所以目前雖然程式可以多很多參考,
但程式的基本功還是很重要的。

 

AI生成程式真的大大縮短了程式設計的學習時間,

不用像以前需要填鴨式記憶一大堆程式碼,

但也不是不需要學習,而是學習程式設計的重點不同,

至少會看懂程式,並知道修改那些地方,

最好還是有除錯能力,若找不到錯誤,

還是可以把程式貼到ChatGPT請他幫忙除錯,

還真的很快找出來錯誤,至於不懂程式,

也可以請AI逐行解釋程式,解釋得實在是太詳細了。

總結AI能幫程式的至少有四,

一、生成程式

二、除錯程式

三、解釋程式

四、轉譯程式,可以把VBA轉為Python,

光這幾項,對程式小白來說,幾乎是直升機是能力提升,

但學習程式的重點需要調整,

不用死背程式,但須要看懂,

不用會寫程式,但要會跟AI溝通。

完整的教學影片:

 

https://terry55wu.blogspot.com/2024/06/chatgptpython.html

 

吳老師  113/6/5
 
吳老師excel函數Vba與Python大數據教學:
 
教學論壇:
台師大試算表進階應用與程式設計2021

懶人包:
EXCEL函數與VBA http://terry28853669.pixnet.net/blog/category/list/1384521
EXCEL VBA自動化教學 http://terry28853669.pixnet.net/blog/category/list/1384524


其他相關學習:

文章標籤

吳老師 發表在 痞客邦 留言(0) 人氣()

分享用Python的beautifulsoup4來抓取大樂透表格資料

這篇分享文,主要可以和 [分享QueryTables物件改用IE物件來抓取大樂透表格資料]比較,

一個是用EXCEL VBA的IE物件,一個是用Python的beautifulsoup4來擷取資料,

兩相比對,沒有各有所長,但若是存為EXCEL,那當然直接用VBA是最直接

若是便利性和後續程式擴充的支援,當然還是Python較有優勢。

 今天主要是學習利用beautifulsoup的find與find_all方法,以解析HTML的標籤與class,

find是取一個或第一個標籤資料,取得的資料型態為文字,

而find_all方法,是取得多個標籤資料,資料型態為串列型態。

練習下載大樂特歷史資料,先找到table標籤,

再取得tr與td標籤,很快地就可以取得所有資料,

其他的就是去除換行與空白,可以用replace方法即可解決問題。

完整教學

 

範例一:大樂特歷史資料下載

網址:https://www.lotto-8.com/listltobigbbk.asp?indexpage=1&orderby=new

**可先藉由 html-online分析

https://html-online.com/editor/

分享用Python的beautifulsoup4來抓取大樂透

完整程式碼:

import requests

from bs4 import BeautifulSoup

url = "https://www.lotto-8.com/listltobigbbk.asp?indexpage=1&orderby=new"

html = requests.get(url)

html.encoding="utf-8"

sp = BeautifulSoup(html.text, "html.parser")

tbl = sp.find("table","auto-style4")

list_tr = tbl.find_all("tr")

for i in range(len(list_tr)):

    list_td=list_tr[i].find_all("td")

    print(list_td[0].text+","+list_td[1].text.replace("\xa0","")+","+list_td[2].text)

分享用Python的beautifulsoup4來抓取大樂透

**日期改為標準格式 年/月/日

list_td[i].text[0:4]+"/"+list_td[i].text[4:9]

將下載資料存成EXCEL

import requests

from openpyxl import Workbook

wb = Workbook()

sheet = wb.active

from bs4 import BeautifulSoup

url = "https://www.lotto-8.com/listltobigbbk.asp?indexpage=1&orderby=new"

html = requests.get(url)

html.encoding="utf-8"

sp = BeautifulSoup(html.text, "html.parser")

tbl=sp.find("table","auto-style4")

# print(tbl.text)

list_tr=tbl.find_all("tr")

for i in range(0,len(list_tr)):

    list_td=list_tr[i].find_all("td")

    S=list_td[0].text+","+list_td[1].text.replace("\xa0","")+","+list_td[2].text

    list1=S.split(",")

    print(list1)

    sheet.append(list1

wb.save("E:\\大樂透.xlsx")

 

開課資訊公布在FB或是部落格:

https://www.facebook.com/scuexcelvba/

 

教學論壇(之後課程會放論壇上課學員請自行加入):

https://groups.google.com/g/tcfst_python_2024

 

課程簡介:

單元01_建置Python開發環境與程式測試

單元02_基本語法與結構控制件

單元03_迴圈資料結構與自訂函數

單元04_串列、字典與檔案與資料庫處理

單元05-1_ChatGPT+Excel自動化程式設計基礎

單元05-2_ChatGPT+Python自動化程式設計基礎

單元05-3_ChatGPT協助撰寫Excel與Python程式

單元05-4_開放資料處理CSV和JSON資料處理

單元05-5_Python網頁資料擷取基礎

單元05-6_網頁資料擷取台彩與股市資料

單元06_使用Pandas與處理_Excel_試算表

單元07_用Python操作Excel儲存格、欄列與工作表

單元08_用Python操作Excel樞紐分析表與折線圖表

 

吳老師  113/5/24

懶人包:
EXCEL函數與VBA http://terry28853669.pixnet.net/blog/category/list/1384521
EXCEL VBA自動化教學 http://terry28853669.pixnet.net/blog/category/list/1384524


其他相關學習:

 

ChatGPT,EXCEL,VBA,Python,自強工業基金會,EXCEL,VBA,函數,程式設計,線上教學,PYTHON安裝環境

文章標籤

吳老師 發表在 痞客邦 留言(0) 人氣()

開課訊息:

東吳推廣部 從EXCEL VBA到Python開發

 

上課日期

2020-02-10 時數 32節

 

上課內容:

因應大數據分析、物聯網與AI智慧辦公室的需求,能更容易的學會網路爬蟲、機器學習、物聯網、影像辨識、自動圖像報表等需求,其中以EXCEL VBA與Python程式開發最為熱門,因此將VBA的自動化延伸到PYTHON設計,讓學員能夠比較兩個工具的長處,並能相互協同應用。

 

教學內容

單元01_建置Python開發環境與程式測試

單元02_基本語法與結構控制件

單元03_迴圈資料結構與自訂函數

單元04_串列、字典與檔案與資料庫處理

單元05-1_開放資料處理CSV和JSON資料處理(停車與PM2.5)

單元05-2_開放資料處理練習題_新北市開放資料JSON

單元05-3_GOOGLE雲端當CSV來源與CSV處理

單元05-4_網頁資料擷取基礎與外匯

單元05-5_網頁資料擷取台彩與股市資料

單元05-6_擷取網頁上櫃股票行情

單元06_使用Pandas與處理_Excel_試算表

單元07_VBA與Phython連結MYSQL資料庫

單元08_視覺化報表使用圖表繪製Matplotlib

備註:本課程上課即時錄製教學,並於課後提供學員線上數位學習。

 

連結:

https://www.ext.scu.edu.tw/courses1.php?gid=7f9f1389-1fa1-11ea-abcd-000c29ad6982

 

 

 

 

 

吳老師  108/12/30

吳老師 發表在 痞客邦 留言(0) 人氣()

PYTHON開發網站技術用Django框架

 

要讓PYHTON能和動態網頁技術結合,

可以架設網站,將之前所學習的技術,

包含檔案處理資料庫網路爬蟲等技術上網,

可以使用Django,算是目前最成熟簡易的技術,

也可以用來取代PHP或ASP.NET等技術,

除了可以安裝在WINDOWS、LINUX或MAC,

甚至是樹梅派等物聯網的各式小裝置上。

所謂 Django 應用程式就是利用 Django框架(framework)開發的網站。

陽春的開發環境,常令開發工作 者感覺事倍功半。

相反的,一個好用的整合開發環境(IDE),則會讓開發工作者 如虎添翼。

於是,在進一步介紹 Django 的運作原理之前,

介紹一個實用 的 Django 應用程式 IDE,也就是利用 Eclipse + PyDev 的組合。

首先,介紹如 何設定這個開發環境。

 

完整影片:

 

要知道是否安裝成功,只要建立專案,並執行只專案,能看到以下畫面,便是成功了。

 

一、Python與Django環境設定

可以直接使用懶人包

 

先下載

eclipse_python.zip  [下載]

Python37-32.zip  [下載]

也可以自行下載安裝eclipse與Python3.7

二、安裝 Django 2.2 先至

http://www.djangoproject.com/download/

 

下載 Django(Django-2.2.tar.gz)。目前最新版本是 Django-2.2.10,

不過有時候最新的版本會有先BUG,目前知道最新版的樣板需要手動複製到admin下,

不然會有錯誤發生。

下載後,將壓縮檔解壓縮至一個指定目錄,例如:D:\Python37-32。

然 後,打開 Windows 的命令提示字元視窗,且切換至 D:\Python37-32\Django-2.2.10。

執行 python setup.py install 如下圖:

 

指令:python setup.py install

 

如果以上的方式有誤,建議自行指定python的懶人包路徑,

可以執行 D:\Python37-32\python setup.py install

重新啟動ECLIPSE會看到畫面

 

python函式庫一定看到下面畫面:

如果沒看到Libranires 下的django-2.2一定要重開 Eclipse

新增專案

 

設定細節:

 

接下來,並執行看看

 

執行結果

將網址複製到瀏覽器看看,若看到以下畫面,

恭喜你成功的踏出DJANGO的第一步了

 

 

結語:

設定DJANGO並不困難,只要小心,

並注意細節因該就可以非常容易成功,

這樣就可以享受用ECLIPSE視覺化工具來開發動態網頁了,

並可以輕易的將之前所學習的PYTHON程式輕易的一直到網站上應用了。

 

 

TAG:中央資工, Django,PHP,ASP.NET,樹梅派,物聯網,AI人工智慧,Python,PYTHON安裝環境

文章標籤

吳老師 發表在 痞客邦 留言(0) 人氣()

從VBA到建立Python開發懶人包分享

 

預覽畫面:

 

因應大數據分析工業4.0的需求,

能更容易得學會網路爬蟲機器學習物聯網影像辨識自動圖像報表等需求,

因此一次將VBA的自動化延伸到PYTHON設計,先讓大家入門,

在比較兩個工具的長處,並能相互協同應用。

 

這次主要分享PYTHON開發環境建置方式,如果實在還有問題,

建議直接下載PYTHON開發環境懶人包:[下載]

 

 

建置Python開發環境

下載Python

程式測試

安裝最佳的整合型開發環境ECLIPSE

1.下載ECLIPSE

 

2.安裝外掛

網址:

https://dl.bintray.com/fabioz/pydev/5.8.0/

 

3.設定PYTHON路徑

4.新增專案

5.新增Package

6.新增Moudle

7.修改程式字型

 

 

 

教學影音(完整版在論壇):

 

教學影音完整版在論壇:

https://groups.google.com/forum/#!forum/labor_python_2017

 

課程簡介:入門

建置Python開發環境

基本語法與結構控制

迴圈、資料結構及函式

VBA重要函數到Python

檔案處理

資料庫處理

課程簡介:進階

網頁資料擷取與分析、Python網頁測試自動化

處理 Excel 試算表、處理 CSV 檔和 JSON 資料

實戰:PM2.5即時監測顯示器、處理影像圖片

 

VBA課程內容:

EXCEL函數 VBA程式設計資料庫是分別屬於三個領域的知識,

但卻是目前大家都需要的一項專業技能,要把三者融合的很好實在非常不容易,

剛好我有近20年的VB程式設計資料庫設計的經驗,

教EXCEL函數與相關課程也有多年,因此清楚如何把最重要的知識教給大家,

ADO資料庫設計的知識非常多,但根據我多年的設計實務經驗,

覺得最重要的是掌握SQL語言,就可以輕易的完成查詢、新增、修改與刪除等功能,

就可以輕易的完成自己想處理的大量資料,大大提高工作效率了!

 

上課用書:

參考書目

Python初學特訓班(附250分鐘影音教學/範例程式)

作者: 鄧文淵/總監製, 文淵閣工作室/編著?

出版社:碁峰?出版日期:2016/11/29

 

完整教學影音DVD申請:http://goo.gl/ZlBZE

論壇:http://groups.google.com/group/labor_excel_vba?hl=zh-TW

 

其他相關學習:

 

EXCEL,VBA,Python,新北市勞工大學,EXCEL,VBA,函數,程式設計,線上教學,PYTHON安裝環境

文章標籤

吳老師 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼