Abrufen einer Liste aller Kirchen in einem bestimmten Zustand mit Python

stimmen
-3

Ich bin ziemlich gut mit Python, so pseudo-Code genügt, wenn Details trivial sind. Bitte setzen Sie sich mich auf die Aufgabe gestartet - wie gehen über das Netz für die Post-Adressen von Kirchen in meinem Zustand kriecht. Sobald ich einen Einzeiler wie „123 Old West Road # 3 Old Lyme-Stadt MD 01234“ habe, kann ich es wahrscheinlich in der Stadt analysieren, Staat, Straße, Hausnummer, apt mit genug Versuch und Irrtum. Mein Problem ist, - wenn ich online weiße Seiten verwendet, dann, wie gehe ich mit allen HTML-Junk, HTML-Tabellen, Anzeigen, etc? Ich glaube nicht, dass ich ihre Telefonnummer benötigen, aber es wird nicht weh tun - ich immer es heraus werfen kann einmal analysiert. Selbst wenn Ihre Lösung Halb Handbuch ist (zB als PDF speichern, öffnen Sie dann Akrobat, speichern als Text) - ich könnte noch mit ihm glücklich sein. Vielen Dank! Heck, ich werde sogar Perl-Schnipsel akzeptieren - ich kann sie selbst übersetzen.

Veröffentlicht am 14/12/2009 um 23:29
quelle vom benutzer
In anderen Sprachen...                            


5 antworten

stimmen
2

Versuchen Sie lynx --dump <url>die Web - Seiten zum Download bereit . Alle störenden HTML - Tags werden aus der Ausgabe entfernt werden, und alle Links von der Seite zusammen erscheinen.

Beantwortet am 14/12/2009 um 23:36
quelle vom benutzer

stimmen
2

Sie könnten verwenden mechanize . Es ist eine Python - Bibliothek , die einen Browser simuliert, so könnte man die weißen Seiten kriechen durch (ähnlich zu dem, was Sie tun , manuell).

Um mit dem ‚html Junk‘ Python für das hat , eine Bibliothek umgehen zu: BeautifulSoup Es ist eine schöne Art und Weise ist es, die Daten , die Sie aus HTML erhalten möchten (natürlich ist es vorausgesetzt , dass Sie ein wenig über HTML wissen, wie Sie werden nach wie vor müssen den Parsing - Baum) navigieren.

Update: In Bezug auf Ihre weitere Frage auf, wie durch mehrere Seiten klicken. mechanize ist eine Bibliothek, genau das zu tun. Nehmen Sie einen näheren Blick auf ihre Beispiele, esp. die follow_link Methode. Wie gesagt es einen Browser simuliert, so ‚klicken‘ kann schnell in Python realisiert werden.

Beantwortet am 14/12/2009 um 23:42
quelle vom benutzer

stimmen
2

Was Sie versuchen zu tun , heißt Scraping oder Web - Scraping.

Wenn Sie einige tun sucht auf Python und Schaben , können Sie eine Liste finden Werkzeuge , die helfen.

(Ich habe noch nie scrapy verwendet, aber es ist Website sieht vielversprechend aus :)

Beantwortet am 14/12/2009 um 23:46
quelle vom benutzer

stimmen
2

Schöne Suppe ist ein Klacks. Hier ist eine Website , die Sie beim Start könnte http://www.churchangel.com/ . Sie haben eine riesige Liste und die Formatierung ist sehr regelmäßig - Übersetzung: einfach zu installieren BSoup zu kratzen.

Beantwortet am 15/12/2009 um 00:17
quelle vom benutzer

stimmen
1

Python-Skripte möglicherweise nicht das beste Werkzeug für diesen Job sein, wenn Sie nur für Adressen von Kirchen in einem geographischen Gebiet suchen.

Die US - Volkszählung liefert einen Datensatz von Kirchen für die Verwendung mit geografischen Informationssystemen. Alle Wenn die Suche xin einem räumlichen Bereich ein immer wieder auftretendes Problem ist, investiert GIS in dem Lernen. Dann können Sie Ihre Python Fähigkeiten bringen viele geografische Aufgaben zu tragen auf.

Beantwortet am 15/12/2009 um 00:34
quelle vom benutzer

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more