Skip to content
Rozszerzenie TYPO3

solrfal dla TYPO3: Indeksowanie plików z Apache Solr

solrfal dla TYPO3: Indeksowanie plików w Apache Solr. Konfiguracja, optymalizacja i migracja, z wykorzystaniem AI. 25 lat doświadczenia.

Umów bezpłatną konsultację

Dlaczego standardowe wyszukiwanie TYPO3 zawodzi przy dużych zbiorach dokumentów

Gdy instalacja TYPO3 zarządza więcej niż kilkuset plikami PDF, wbudowane wyszukiwanie napotyka dwie granice: znajduje treści tylko w polach bazodanowych, nie w plikach, a jego logika rankingu ignoruje sygnały trafności, których potrzebują redaktorzy. solrfal wypełnia dokładnie tę lukę, łącząc File Abstraction Layer (FAL) z TYPO3 bezpośrednio z Apache Solr i udostępniając do wyszukiwania każdy plik wraz z jego metadanymi. Rozszerzenie kierowane jest do organizacji, które traktują dokumenty jako rdzeń swojej pracy wiedzy: urzędów z formularzami, wydawnictw z literaturą fachową, uczelni z materiałami dydaktycznymi.

Typowe scenariusze zastosowania

W politechnice z około 40 000 studentów regulamin studiów leży w 180 plikach PDF, rozproszonych po dwunastu wydziałach. Bez solrfal student znajduje przepis dotyczący zgłoszenia na egzamin tylko wtedy, gdy redaktor dodatkowo zapisał ten tekst jako opis meta. Z solrfal Apache Tika indeksuje każdą stronę, a zapytanie wyszukiwania zwraca właściwy akapit wraz z cytatem.

Drugi scenariusz znają urzędy centralne, które dostarczają teksty ustaw, dyrektyw i formularzy przez TYPO3-CMS. Dokumenty często się zmieniają, a uprawnienia dostępu są powiązane z jednostkami organizacyjnymi. solrfal automatycznie synchronizuje przynależność fe_groups plików z indeksem Solr, dzięki czemu pracownik z wydziału V widzi tylko te trafienia, do których ma uprawnienia odczytu.

Trzeci przypadek występuje w wydawnictwach fachowych: wydawnictwo z 12 000 artykułów czasopism w formacie PDF chce udostępnić archiwum do przeszukiwania fasetowego według rocznika, autora i rubryki. solrfal wyodrębnia metadane, wypełnia pola Solr i dostarcza bazę danych dla faset, której klasyczne rozszerzenia TYPO3 takie jak ke_search w tej skali nie są już w stanie obsłużyć.

Architektura techniczna oparta na Apache Tika i EXT:solr

solrfal jest rozszerzeniem kluczowego rozszerzenia EXT:solr od dkd Internet Service i wymaga obowiązkowo działającego serwera Apache Solr, zazwyczaj w wersji 8 lub 9. Samą ekstrakcję tekstu przejmuje Apache Tika, albo jako wbudowana usługa w kontenerze Solr, albo jako samodzielny serwer Tika. solrfal wpina się przez TYPO3-Event-API w cykl życia FAL: każdy wgrany, przeniesiony lub usunięty plik uruchamia zadanie indeksowania, które jest asynchronicznie przetwarzane w TYPO3-Scheduler.

Konfiguracja solrfal odbywa się przez TypoScript i konfigurację rozszerzenia. Schemat Solr można dostosować przez Managed Schema API, dzięki czemu dodatkowe pola jak typ dokumentu, wydział czy język można dodać bez restartu Solr. Tuning trafności odbywa się przez Boosting-Queries i Function Queries, które są definiowane w konfiguracji zapytań EXT:solr. solrfal dziedziczy przy tym wszystkie funkcje językowe EXT:solr, w tym wielojęzyczne analyzery dla niemieckiego, angielskiego, francuskiego i innych standardowych języków.

Częste problemy i rozwiązania

Pierwszy problem pojawia się zwykle przy pierwszym indeksowaniu: Apache Tika zawiesza się przy uszkodzonych lub zaszyfrowanych plikach PDF z błędem OutOfMemoryError i zrywa cały indekser. Rozszerzenie oznacza wtedy plik jako błędny, ale przy kolejnym przebiegu nie pomija go automatycznie. Analizujemy logi Tika, oddzielamy zaszyfrowane od rzeczywiście uszkodzonych plików i ustawiamy pre-check, który sortuje problematyczne pliki, zanim dotrą do indeksera.

Drugi powracający temat to trafność. Zespoły zgłaszają, że wyszukiwanie wprawdzie znajduje wszystkie dokumenty, ale nierelewantne trafienia są na samej górze. Powód leży niemal zawsze w domyślnej wadze pól: solrfal indeksuje całą zawartość pliku w jedno pole, bez rozróżnienia między tytułem, nagłówkami a tekstem głównym. Porządne rozwiązanie wymaga dostosowanego schematu z oddzielnymi polami dla tytułu, metadanych i body oraz regułami boostingu, które wyżej oceniają trafienia w tytułach.

Trzeci problem dotyczy wydajności przy dużych zbiorach. Powyżej około 50 000 zindeksowanych plików scheduler staje się wąskim gardłem, ponieważ solrfal przetwarza każde zadanie pojedynczo. Rozwiązaniem jest indeksowanie wsadowe w połączeniu z dedykowanym procesem workera, który działa równolegle do normalnych zadań schedulera i priorytetowo obsługuje zadania solrfal. Dodatkowo opłaca się indeksowanie różnicowe, które przy każdym przebiegu przetwarza tylko nowe lub zmienione pliki, co znacząco zmniejsza nakład pracy przy stabilnych zbiorach dokumentów.

Czwarty, rzadszy temat pojawia się przy instalacjach wielojęzycznych: solrfal indeksuje pliki niezależnie od języka do wspólnego indeksu, dzięki czemu francuskie opracowanie pojawia się w niemieckiej liście trafień, jeśli słowo kluczowe jest międzynarodowo rozpowszechnione. Czyste rozdzielenie językowe wymaga kilku Solr-Cores lub dodatkowej fasety językowej, którą można sterować przez konfigurację EXT:solr oddzielnie dla każdego site-root.

Migracja i kompatybilność wersji

solrfal podąża za cyklem wydawniczym EXT:solr, który obecnie wspiera TYPO3 v12 i v13. Skok z TYPO3 v9 na v12 to najczęstsza ścieżka migracji i niemal zawsze oznacza też skok z Solr 6 na Solr 9. Przy tym zmienia się format schematu, Managed-Schema-API i niektóre klasy analyzerów, co wymaga pełnego reindeksu. Istniejące reguły boostingu muszą być zwalidowane pod kątem nowego zachowania parsera zapytań, ponieważ Solr 9 inaczej ocenia niektóre domyślne operatory niż Solr 6.

Kto migruje z ke_search lub z wyszukiwania wyłącznie opartego na bazie danych, musi uwzględnić, że solrfal wymaga własnego serwera Solr i tym samym rozszerza wymagania hostingowe. Gosign od lat towarzyszy takim migracjom i w razie potrzeby przejmuje też przejście na konfigurację Solr opartą na kontenerach, która wpasowuje się w istniejące pipeline’y deploymentu.

Warto też zauważyć, że obciążenie utrzymaniem solrfal nie jest do niedocenienia: sam Solr otrzymuje regularne aktualizacje bezpieczeństwa, a schemat musi być sprawdzany przy każdym większym upgrade pod kątem nowych klas analyzerów. Projekt, który raz zdecyduje się na solrfal, przejmuje tym samym odpowiedzialność za własny stos wyszukiwania i powinien to uwzględnić przy początkowym sizingu oraz planowaniu zasobów operacyjnych.

Dlaczego Gosign?

Gosign oferuje profesjonalne usługi solrfal: konfiguracja, tuning trafności i migracja. Specjalizacja w Apache Solr Enterprise Search od 2012 roku. Dzięki wspieranej przez AI analizie konfiguracji identyfikujemy problemy Solr w minuty zamiast dni.

Nasze usługi dla solrfal

Nowy rozwój

Pierwsza konfiguracja solrfal wraz z integracją Apache Tika, projektowaniem schematu dla typów plików, synchronizacja uprawnień dostępu z fe_groups. AI generuje optymalne schematy Solr na podstawie struktury Twojego contentu.

Aktualizacja i migracja

Aktualizacja solrfal przy zmianie wersji TYPO3 (v9→v12, v12→v13). Migracja serwera Solr (Solr 6→9). Przebudowa indeksu bez przestojów.

Audyt kodu

Dlaczego solrfal nie indeksuje niektórych plików? Dlaczego wyniki wyszukiwania są słabe? Wspierana przez AI analiza logów identyfikuje błędy indeksowania, problemy z Tika i problemy z trafnością.

Utrzymanie i wsparcie

Bieżące monitorowanie indeksu, monitoring wydajności, aktualizacje bezpieczeństwa. Proaktywne alerty przy niespójnościach indeksu.

Bezpłatna konsultacja: 30 minut ze specjalistą TYPO3

Analizujemy Twój projekt, szacujemy nakład i termin - bez zobowiązań, bez przygotowania.

Omów projekt Solr, 30 min, bezpłatnie

25 lat doświadczenia z TYPO3 · 800+ przeanalizowanych rozszerzeń · Rozwój przyspieszony przez AI

Rozwój przyspieszony przez AI: 75% szybciej

To, co kiedyś zajmowało 3-4 tygodnie, dostarczamy w 3-5 dni. Konfiguracja Solr jest złożona: projektowanie schematu, pipeline Tika, reguły boostingu, facety. Nasze narzędzia AI automatycznie analizują istniejące konfiguracje i generują prawidłowe definicje schematów. Starsi programiści walidują, zamiast ręcznie pisać każdą linię.

Zadanie Klasycznie Z AI Oszczędność
Analiza schematu 3 dni 4 godziny 90%
Tuning trafności 1 tydzień 1,5 dnia 70%
Aktualizacja wersji Solr 1 tydzień 1,5 dnia 80%
Debugowanie na podstawie logów 2 dni 4 godziny 60%

Aktualizacja TYPO3 i audyt RODO

Aktualizujemy Twoją instalację TYPO3 ekonomicznie do aktualnej wersji LTS - wraz ze wszystkimi rozszerzeniami, również przestarzałymi i niewspieranymi.

Wszystkie rozszerzenia zmigrowane

Również przestarzałe, niewspierane lub własne.

Cena stała

Przejrzyste koszty, bez ukrytych prac dodatkowych.

Przyspieszone AI

30-50% taniej niż rynek dzięki analizie kodu wspomaganej przez AI.

Zero utraty danych

Pełna migracja danych z zabezpieczeniem rollback.

Audyt RODO: Sprawdzamy Twoją instalację TYPO3 pod kątem zgodności z RODO - zgody cookie, tracking, rozszerzenia, formularze i hosting - i wdrażamy wszystkie działania ekonomicznie.

Często zadawane pytania: solrfal

Ile kosztuje konfiguracja solrfal dla TYPO3?

Zależy od złożoności (typy plików, języki, uprawnienia dostępu). Dzięki konfiguracji z wykorzystaniem AI oferujemy ceny o 30-50% niższe od rynkowych. Konsultacja bezpłatna.

Czy potrzebuję własnego serwera Solr?

Tak, Apache Solr działa jako oddzielna usługa. Gosign zaleca dedykowany serwer lub kontener. Doradztwo w zakresie hostingu w cenie.

solrfal vs. ke_search - co jest lepsze?

solrfal/Solr nadaje się do scenariuszy enterprise z ponad 10 000 dokumentami, indeksowaniem plików i Faceted Search. ke_search to prostsze rozwiązanie bez własnego serwera Solr.

Powiązane rozszerzenia TYPO3

Gosign to agencja cyfrowa z Hamburga z 25-letnim doświadczeniem w rozwoju TYPO3. Przeanalizowaliśmy ponad 800 rozszerzeń TYPO3 i dziś rozwijamy je przy wsparciu AI nawet o 70% szybciej niż metodami klasycznymi. Naszymi klientami są średnie przedsiębiorstwa, uczelnie wyższe i instytucje publiczne w Europie.

Stan: kwiecień 2026

Umów bezpłatną konsultację

30 minut ze specjalistą TYPO3, bez zobowiązań.