Dreamboard

alpha · 13. März 2023

auf der suche nach einer einfachen art, web-pages zu parsen bin ich auf die lib beautifulsoup gestossen.

erlaubt im gegensatz zu re-konstrukten eine uebersichtliche art zu parsen... hier ein kleines beispiel fuer das parsen von tabellen:

Python

        from bs4 import BeautifulSoup

        soup = BeautifulSoup(html, "html.parser")
        tables = soup.find_all("table")
        for table in tables:
            rows = table.find_all("tr")
            for row in rows:
                cols = row.find_all("td")
                for col in cols:
                    process_col()

vielleicht kann es ja mal einer gebrauchen...

murxer · 13. März 2023

Ich nutze für manches auch "bs4" aber das kann man jetzt nicht für mehrere Seiten gleich nutzen, muss immer angepasst werden.

Hier mal wie ich eine Seite lese fürs Wled-Plugin:

Python

import urllib2
from bs4 import BeautifulSoup

url = "https://github.com/Aircoookie/WLED/releases/"
url_git = "https://github.com"

response = urllib2.urlopen(url)
data = response.read()
soup = BeautifulSoup(data, 'html.parser')


release_data = soup.find_all("div", class_="col-md-9")
data = []
if release_data:
    for item in release_data:
        release = item.find("a", class_="Link--primary")
        release_text = release.get_text().strip().encode("utf-8") if release else None

        release_info = item.find("div", class_="markdown-body my-3")
        release_info_text = release_info.get_text().strip().encode("utf-8") if release_info else ""

        release_url = item.find("include-fragment", src=True)["src"].encode("utf-8") if item.find("include-fragment", src=True) else None
        bin_data = []
        if release_url:
            response = urllib2.urlopen(release_url)
            res = response.read()
            soup = BeautifulSoup(res, 'html.parser')
            bins = soup.find_all("a", class_="Truncate", href=True)
            for bin in bins:
                bin_txt = bin.find("span", class_="Truncate-text text-bold").get_text().strip().encode("utf-8") if bin.find("span", class_="Truncate-text text-bold") else ""
                bin_url = url_git + bin["href"].encode("utf-8") if bin["href"] else None
                bin_data.append((bin_txt, bin_url))
        if release_text and bin_data:
            data.append((release_text, release_info_text, bin_data))

print(data)

Alles anzeigen

Bedeute aber nicht das ich dann immer "bs4" nutze, hier ist es dann mit "re" ab und zu schon einfacher.

Aber wenn man sich mit bs4 auskennt, dann glaube ich ist das schon eine schöne Hilfe, für mich ist das auch immer testen testen testen.

ni_hao · 16. März 2023

leider nicht verfügbar in OE

alpha · 16. März 2023

apt install python-beautifulsoup4

ni_hao · 15. April 2023

Habe mittlerweile "Schöne Suppe" installiert.

Ich will Daten von einer Webseite lesen. Die Daten - die ich brauche (zb. Title (title="bla bla bla">also dieser Titel<) - sind in einer Tabelle.

Ich wollte dafür ".select_one" nutzen, aber ist leider nicht gestattet weil angeblich das 'soupsieve' Paket nicht installiert ist.

Deswegen kann ich CSS-selectors ja nicht nutzen. Auf der dreamboxupdate Feed kann ich das 'soupsieve' Paket nicht finden.

Um die Daten zu kriegen habe ich:

Python

resp = requests.get(url)
soup = BeautifulSoup(resp.content, 'html.parser')
    
for table in soup.select('tbody tr'):
   t = table.select_one('td.field.title div a').get('title')

Ich bekomme dann diese Fehlermeldung:

Code

root@dmtwo:/tmp$ python 1.py

/usr/lib/python2.7/site-packages/bs4/element.py:16: UserWarning: The soupsieve package is not installed. CSS selectors cannot be used.
'The soupsieve package is not installed. CSS selectors cannot be used.'

Traceback (most recent call last):
File "1.py", line 40, in <module>

for table_title in soup.select('tbody tr'):

File "/usr/lib/python2.7/site-packages/bs4/element.py", line 1373, in select
"Cannot execute CSS selectors because the soupsieve package is not installed."
NotImplementedError: Cannot execute CSS selectors because the soupsieve package is not installed.

Alles anzeigen

Frage ist: wie kriege ich das 'soupsieve Paket installiert oder gibt es eine andere Möglichkeit um Text aus Tabellendaten (<td>) zu extrahieren?

alpha · 15. April 2023

soupsieve braucht man nicht.

kannst du ein bisschen genauer angeben, nach was du suchen willst?

ni_hao · 15. April 2023

ich brauche zb. von dieser Webseite, die Namen von den Ländern (erste Spalte) und die zweistellige (einzigartiger) Code (zweite Spalte) und die werden dann jeweils eingetragen in: countryName und countyCode

Alle Daten werden dann in die Liste "countries' eingetragen und zwar so: countries.append(countryCode + "-" + countryName)

Es gibt dann zb.: DE-Deutschland

Man braucht dafür die 3'er Tabelle: table = soup.find_all('table')[2].

Die Webseite ist zwar eine wikiSeite, aber leider alles andere als wissenschaftlich konstruiert worden; deswegen wollte ich in die Tabellenzeilen (<tr>...</tr>) die ersten Tabellendaten (<td>...</td>) nehmen und danach suchen nach title="

dre · 15. April 2023

python-soupsieve im Anhang für dreamone/dreamtwo

ni_hao · 15. April 2023

Danke dre, kommt die Datei auch verfügbar unten dreamboxupdate.com

dre · 15. April 2023

Darauf hab ich keinen Einfluss. Sie liegt aber auch auf unserem Feed. Ich hab mir das recipe einfach in pyro und krogoth eingefügt und die notwendigen Packages gebaut (bei krogoth braucht es noch ein paar mehr als bei pyro).

alpha · 15. April 2023

Zitat

html_row = '<tr><td style="text-align:left"><span style="display:none">Aland</span><a href="/wiki/%C3%85land" title="Åland"><img alt="" src="//upload.wikimedia.org/wikipedia/commons/thumb/5/52/Flag_of_%C3%85land.svg/20px-Flag_of_%C3%85land.svg.png" decoding="async" width="20" height="13" class="noviewer" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/5/52/Flag_of_%C3%85land.svg/30px-Flag_of_%C3%85land.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/5/52/Flag_of_%C3%85land.svg/40px-Flag_of_%C3%85land.svg.png 2x" data-file-width="520" data-file-height="340" /></a> <a href="/wiki/%C3%85land" title="Åland">Åland</a></td><td>AX</td><td>ALA</td><td>248</td><td><a href="/wiki/.ax" title=".ax">.ax</a></td><td></td><td>(nur <a href="/wiki/ISO_3166-2:FI" title="ISO 3166-2:FI">FI-01</a>)</td><td>AX</td></tr>'

soup = BeautifulSoup(html_row, 'html.parser')
first_column = soup.find('td').text.strip()
second_column = soup.find_all('td')[1].text.strip()
print(first_column)
print(second_column)
Aland Åland
AX

Alles anzeigen

vorher musst du noch die entsprechende table parsen und dann eine loop ueber alle rows.

ni_hao · 16. April 2023

Zitat von dre

python-soupsieve im Anhang für dreamone/dreamtwo

Leider feht eine Abhängigkeit: python-backports-functools-lru-cache

python-soupsieve:arm64 depends on python-backports-functools-lru-cache; however:

Package python-backports-functools-lru-cache is not installed.

dre · 16. April 2023

Findest du bei uns auf dem Feed: https://feed.dreamboxtools.de/…ache_1.6.1-r0.0_arm64.deb